您的位置: 专家智库 > >

郭少华

作品数:3 被引量:3H指数:1
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇专利
  • 1篇期刊文章

领域

  • 1篇自动化与计算...

主题

  • 3篇网页
  • 3篇抽取
  • 2篇空间资源
  • 2篇版块
  • 1篇信息抽取
  • 1篇正交
  • 1篇正文
  • 1篇网页正文
  • 1篇可扩展

机构

  • 3篇中国科学院
  • 1篇中国科学院大...

作者

  • 3篇刘悦
  • 3篇郭岩
  • 3篇程学旗
  • 3篇郭少华
  • 3篇李海燕
  • 2篇余智华
  • 1篇张瑾

传媒

  • 1篇中文信息学报

年份

  • 1篇2016
  • 1篇2015
  • 1篇2013
3 条 记 录,以下是 1-3
排序方式:
可扩展的网页关键信息抽取研究被引量:3
2015年
该文提出了一种可扩展的网页关键信息抽取框架。该框架很好地融合了模板无关的全自动信息抽取算法和基于模板的信息抽取算法,从本质上提高抽取精度和抽取效率。该框架中的一些关键环节可根据需求进行替换,因此该框架具有很好的可扩展性。同时,该文还提出了模板的正交过滤算法。将该算法引入基于模板的抽取算法中,能够从本质上提高生成的模板的准确性。实验结果验证了上述结论。
郭少华郭岩李海燕刘悦张瑾程学旗
关键词:信息抽取
一种从单记录网页中抽取规律噪音的方法
本发明提供一种从单记录网页中抽取规律噪音的方法,所述方法包括:首先将多个单记录网页转化为DOM树,并且将所述DOM树按照结构进行分类;然后,将同一类别的DOM树进行对齐合并得到站点板块风格树;在所述站点版块风格树中定位网...
程学旗李海燕郭岩万圣贤郭少华刘悦余智华
文献传递
一种从单记录网页中抽取规律噪音的方法
本发明提供一种从单记录网页中抽取规律噪音的方法,所述方法包括:首先将多个单记录网页转化为DOM树,并且将所述DOM树按照结构进行分类;然后,将同一类别的DOM树进行对齐合并得到站点板块风格树;在所述站点版块风格树中定位网...
程学旗李海燕郭岩万圣贤郭少华刘悦余智华
文献传递
共1页<1>
聚类工具0