房婧
- 作品数:7 被引量:10H指数:2
- 供职机构:国家互联网应急中心更多>>
- 发文基金:国家科技支撑计划国家重点基础研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 识别版面阅读顺序的方法及装置
- 本发明提供一种识别版面阅读顺序的方法,包括:读取待识别版面,并分析该版面以得到版面布局信息和字符文本对象和图像对象的对象属性;根据版面布局信息和对象属性,将字符文本对象合并为文本段落并将图像对象识别为图像段落;采用全局递...
- 房婧高良才汤帜陶欣
- 文献传递
- 识别版面阅读顺序的方法及装置
- 本发明提供一种识别版面阅读顺序的方法,包括:读取待识别版面,并分析该版面以得到版面布局信息和字符文本对象和图像对象的对象属性;根据版面布局信息和对象属性,将字符文本对象合并为文本段落并将图像对象识别为图像段落;采用全局递...
- 房婧高良才汤帜陶欣
- 版式电子文档表格自动检测与性能评估被引量:3
- 2013年
- 针对版式电子文档的特点,提出一种表格线分割符和表格文本的布局特征相结合的表格定位方法,并且对中英文档均有效。此外,针对缺少表格定位自动评估体系,构建了一个初具规模的公开数据集,由中英文版式页面等比例组成,对其标注基准结果,并针对移动阅读应用场景提出一套评估准则。通过与现有两个开源表格定位项目的比较,验证了新提出的表格定位方法的有效性和评估体系的实用性,特别是对中文数据集获得了较好的结果。
- 房婧高良才仇睿恒汤帜
- 关键词:自动性能评估
- 一种基于聚类技术的图书目录识别方法被引量:3
- 2010年
- 分析了目录识别研究的现状,在总结当前技术优缺点的基础上,提出了一种适应性和效率兼顾的目录识别方法。根据图书目录具有风格一致性的特点,利用聚类技术发现目录装饰性内容,生成具有自适应性的目录布局模型,然后利用该模型生成目录条目及其层次关系。实验结果表明,该方法在准确度和效率上均取得了较好的效果,尤其是有效地处理了存在装饰性内容、折行和多种层次布局的复杂目录。该方法已应用于电子图书生产线,显著提高了原电子目录制作系统的生产效率。
- 高良才汤帜林晓帆俞银燕房婧
- 关键词:聚类
- 一种基于用户互动话题的微博推荐算法被引量:2
- 2016年
- 随着社交网络的发展,微博逐渐成为人们获取信息的重要来源。然而随着用户的增多,微博中的信息过载问题也越来越严重,如何快速准确地为用户推荐感兴趣的微博已经成为研究的热点。与传统的推荐技术不同,微博中的用户具有天然的社交关系,这为推荐算法提供了额外的用户信息,因此,融合了用户社交关系的社会化推荐方法日益受到重视。但是,现有的方法大多只利用了固定的用户社交关系或简单的互动行为,事实上,用户互动行为的出发点必然是用户与好友的共同兴趣,具有明显的话题相关性。该文从话题层面来分析用户的互动关系,提出了度量互动关系在话题上强弱度的方法,通过有效地融合互动关系的话题特征,最终提出了改进的微博推荐模型IBCF。实验结果表明,与现有的社会化推荐方法相比,该文提出的新方法在MAP和NDCG等指标上取得了更好的推荐效果,而且为推荐结果提供了更明确的可解释性。
- 鲁骁李鹏王斌李应博房婧
- 关键词:互动关系社会化推荐协同过滤
- 电子文档表格的自动定位与结构分析研究
- 文档是信息的载体,互联网的飞速发展使得信息传播方式发生了变革,传统的纸质文档由于信息传播不便、难于保存和管理、信息检索受限,正在日益被电子文档替代。电子文档不但节约了信息传播的成本,同时加快了信息的增值,已成为信息社会的...
- 房婧
- 关键词:电子文档
- 一种自动发现、分割与标注引文元数据的方法被引量:2
- 2010年
- 在总结现有的引文元数据抽取方法的基础上,针对引文的排版惯例——引文在文档内部风格一致,提出了一种新的引文元数据抽取方法。重点描述了以往研究中很少涉及的引文元数据的自动发现和分割,探讨了风格一致性在引文元数据标注中的应用。实验结果表明此方法在引文元数据发现、分割和标注方面均取得了较好的效果。
- 高良才汤帜陶欣房婧
- 关键词:元数据抽取数字图书馆