中国民航大学科研基金(07kym04)
- 作品数:1 被引量:1H指数:1
- 相关作者:张志远冯霞徐涛更多>>
- 相关机构:中国民航大学更多>>
- 发文基金:中国民航大学科研基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 航班信息抽取规则的自动生成技术被引量:1
- 2011年
- 在基于包装器的Web信息提取工作中,抽取规则占有重要的地位。由于网页经常改版,使得抽取规则需要不断更新,且手工生成抽取规则是一项费时费力的工作。为此,提出一种自动生成抽取规则的方法,通过扫描HTML源码,生成带语义信息的TABLE树,用以识别网页中的数据表格,并在此基础上利用贪心算法自动生成抽取规则。实验结果表明,该方法具有较高的准确率和F指数,且对于识别出的表格具有较高的规则生成率。
- 张志远徐涛冯霞
- 关键词:WEB信息提取抽取规则贪心算法