您的位置: 专家智库 > >

国家自然科学基金(61202232)

作品数:3 被引量:4H指数:1
相关作者:汤帜高良才林晓燕王悦涵王思萌更多>>
相关机构:北京大学更多>>
发文基金:国家自然科学基金北京市自然科学基金国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇中文期刊文章

领域

  • 3篇自动化与计算...

主题

  • 2篇中文
  • 2篇文档
  • 1篇电子文档
  • 1篇中文文档
  • 1篇脚注
  • 1篇版面
  • 1篇PDF文档
  • 1篇表单

机构

  • 3篇北京大学

作者

  • 3篇高良才
  • 3篇汤帜
  • 1篇黎斯达
  • 1篇林晓燕
  • 1篇李平立
  • 1篇俞银燕
  • 1篇王思萌
  • 1篇王悦涵

传媒

  • 3篇北京大学学报...

年份

  • 2篇2015
  • 1篇2014
3 条 记 录,以下是 1-3
排序方式:
中文电子文档的数学公式定位研究被引量:4
2014年
区别于传统基于图像和西文文档的公式定位方法,针对中文电子文档的特点,提出一种基于机器学习和规则相结合的独立公式和内嵌公式的定位方法。设计了适合中文文档的页面分行策略和词块划分规则;选择适合中文文档的公式特征和机器学习算法;针对公式定位中的过分割问题,提出行合并与词块合并等后处理手段。实验结果表明,该方法可以有效地从中文电子文档中自动定位公式区域。此外,构建了公开可用的中文数据集,以促进不同数学公式定位方法间的相互比较及性能评估。
林晓燕高良才汤帜
关键词:电子文档中文文档
PDF文档中的脚注识别研究
2015年
针对PDF文档的脚注识别问题,提出一种自动识别脚注及其引用,并建立它们之间匹配关系的方法。首先针对PDF文档提取脚注的一系列特征,包括页面布局、字体信息、语义信息等,然后基于文档部件风格一致性,利用聚类技术,处理在不同文档中相异但在同一文档中相似的特征,从而使得识别过程能够适应不同文档类型。此外,利用脚注与引用的匹配结果为识别过程提供反馈,进一步提高了识别准确性。在真实文档测试集上的实验结果表明,所提方法对于PDF文档的脚注识别取得较高的准确率和召回率。
黎斯达高良才汤帜俞银燕
关键词:脚注PDF文档
版面相似中文表单的分类方法研究
2015年
针对具有相似版面的中文表单,提出一种简单有效的基于距离度量的表单分类方法,该方法对表单的用户填写信息、布局信息和位置偏移分别进行距离度量,并通过3种权重有效地降低用户填写信息的随机性、版面相似表单的布局一致性和位置抖动性对表单分类的影响。实验表明,所提方法在多个中文表单图像库上的分类准确率达到90%以上,比目前最新的表单分类方法有明显提高。
王思萌高良才王悦涵李平立汤帜
共1页<1>
聚类工具0