宋艳娟
- 作品数:12 被引量:38H指数:4
- 供职机构:福建农林大学计算机与信息学院更多>>
- 发文基金:福建省高等学校科技项目更多>>
- 相关领域:自动化与计算机技术文化科学电子电信更多>>
- 一种PDF文档到XML文档转换的方法
- 本发明公开了一种PDF文档到XML文档转换的方法,(一)中间文档生成模块(7):针对PDF样本文档(2)的内容,根据语义项和文本块之间的映射关系,系统自动生成标记语义项和信息块特征的中间XML文档(3);(二)规则生成模...
- 张文德宋艳娟陈振标杨传耀陈俊林朱丹红
- 文献传递
- 刍议Web Services
- Web Services作为一种新型的网络体系结构而成为目前业界研究的热点.本文系统地介绍了Web Services的体系架构及其特点,并分析和比较了Web Services的几种解决方案.最后,根据未来社会的需求,探讨...
- 宋艳娟张文德
- 关键词:SOAPXMLUDDIWSDL
- 文献传递
- 基于XML的PDF文档信息抽取系统的研究被引量:18
- 2005年
- 首先设计了科技论文的DTD文档,然后分析了PDF文档的结构。在此基础上,我们介绍了PDF文档信息抽取系统的设计框架。该框架以上述DTD为模板,把以PDF格式表示的科技论文解析转换为有效的XML文档。
- 宋艳娟张文德
- 关键词:信息抽取PDFXML
- 一种基于XML的PDF文档信息抽取系统的方法
- 本发明公开了一种基于XML的PDF文档信息抽取系统的方法,它是一种信息转化的方法,属于信息技术类,其步骤为:(1)DTD的设计,分析并选择出外部信息元数据和内部信息元数据;(2)实现对PDF文档的语义信息的抽取,先将提取...
- 张文德宋艳娟杨传耀朱丹红陈俊林
- 文献传递
- 基于XSLT的PDF信息抽取技术的研究被引量:8
- 2008年
- 以XML作为信息表现模型,以XSLT作为信息抽取规则,设计并实现了一套面向科技论文的PDF文档的信息抽取系统。首先将PDF源文档转换为一种中间XML文档,然后利用文本特征、位置特征以及显示特征对中间XML文档进行基于XSLT规则的信息抽取。测试结果表明,系统的抽取效果良好,并具有较强的扩展性。
- 宋艳娟李金铭陈振标
- 关键词:信息抽取PDFXMLXSLT
- 基于XML的PDF文档信息抽取系统的研究
- 本文对XML的PDF文档信息抽取系统进行了研究。文章首先设计了科技论文的DTD文档,然后分析了PDF文档的结构。在此基础上,介绍了PDF文档信息抽取系统的设计框架。该框架以上述DTD为模板,把以PDF格式表示的科技论文解...
- 宋艳娟张文德
- 关键词:情报分析数据挖掘信息抽取
- 文献传递
- 个性化检索系统中用户兴趣模型的研究被引量:6
- 2013年
- 个性化检索服务已成为提高信息检索查准率的有效途径。论文针对用户兴趣模型的构建,在传统TFIDF算法的基础上,提出了一种基于文档结构和网页兴趣权重的TFIDF算法,并给出了用户兴趣模型的更新算法。实例分析表明,基于该文算法的用户兴趣模型能够改善用户兴趣的捕获情况。
- 宋艳娟陈振标
- 关键词:个性化检索用户兴趣模型TFIDF算法
- 一种PDF文档到XML文档转换的方法
- 本发明公开了一种PDF文档到XML文档转换的方法,(一)中间文档生成模块(7):针对PDF样本文档(2)的内容,根据语义项和文本块之间的映射关系,系统自动生成标记语义项和信息块特征的中间XML文档(3);(二)规则生成模...
- 张文德宋艳娟陈振标杨传耀陈俊林朱丹红
- 文献传递
- 一种基于本体的语义检索系统的研究被引量:1
- 2009年
- 面向语义是提高检索效率的有效途径。基于本体技术,提出了一个面向特定领域的信息检索模型,重点研究了结合本体的信息收集、信息抽取以及语义推理技术,并分析了模型在手机本体领域的应用。通过本体的语义推理,提高了检索系统的查全率和查准率。
- 宋艳娟陈振标张文德
- 关键词:领域本体语义检索主题蜘蛛信息抽取LUCENE
- 基于XML的HTML和PDF信息抽取技术的研究
- 当今是信息时代,用户面前呈现着海量数据。这些数据大多以HTML、PDF、WORD等文档格式进行存储。其中,PDF和HTML在数据的显示方面获得了巨大的成功,而在对文档的语义信息及其内部结构的描述上明显不足。这成为制约用户...
- 宋艳娟
- 关键词:信息抽取XMLPDFHTML
- 文献传递