福建省高等学校科技项目(JA04164)
- 作品数:3 被引量:30H指数:3
- 相关作者:张文德宋艳娟陈俊林陈振标李金铭更多>>
- 相关机构:福州大学福建农林大学更多>>
- 发文基金:福建省高等学校科技项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于XSLT的PDF信息抽取技术的研究被引量:8
- 2008年
- 以XML作为信息表现模型,以XSLT作为信息抽取规则,设计并实现了一套面向科技论文的PDF文档的信息抽取系统。首先将PDF源文档转换为一种中间XML文档,然后利用文本特征、位置特征以及显示特征对中间XML文档进行基于XSLT规则的信息抽取。测试结果表明,系统的抽取效果良好,并具有较强的扩展性。
- 宋艳娟李金铭陈振标
- 关键词:信息抽取PDFXMLXSLT
- 基于XML的PDF文档信息抽取系统的研究被引量:18
- 2005年
- 首先设计了科技论文的DTD文档,然后分析了PDF文档的结构。在此基础上,我们介绍了PDF文档信息抽取系统的设计框架。该框架以上述DTD为模板,把以PDF格式表示的科技论文解析转换为有效的XML文档。
- 宋艳娟张文德
- 关键词:信息抽取PDFXML
- XML文档的数据库转换技术研究被引量:9
- 2006年
- 概述目前XML的几种存储方法,简单分析科技论文的文档类型,最后采用SQL Server2000对PDF格式的科技论文经元数据信息抽取后所生成的XML文档实现具体的XML的数据库转换。
- 陈俊林张文德
- 关键词:XML数据库SQLSERVER