欧阳辉
- 作品数:4 被引量:11H指数:3
- 供职机构:空军工程大学信息与导航学院更多>>
- 发文基金:陕西省科学技术研究发展计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于个性化服务的相关性算法的研究
- 2010年
- 在介绍个性化服务的相关知识的基础上,通过个性化服务的技术来提高用户和系统的互动性,从而提高搜索的查准率。并针对当前搜索引擎查询的信息太多,用户查询效率不高等问题,研究个性化搜索,并结合用户兴趣度完善了向量空间模型,提出一种解决搜索查询的方法,通过验证该搜索查询方法达到比较满意的结果。
- 王元直卢潇钱建立欧阳辉
- 关键词:个性化服务兴趣度搜索引擎查询
- 基于SVM的论文元数据抽取方法研究被引量:6
- 2010年
- 通过分析多分类支持向量机(SVM)的特点,建立了基于平衡二叉树的支持向量机模型BBT-SVM,并在训练过程中调整相关参数,得到目标支持向量机。针对PDF文件的特点,应用pdfbox开源库对PDF文件进行解析,去除PDF文件的文件头、交叉引用表以及文件尾等额外的文档描述信息,得到目标信息;最后利用libsvm开源库对PDF格式论文解析后的目标信息进行论文元数据抽取。实验结果表明:各类元数据的查全率都在86%以上,查准率都在92%以上,F度量值都在89%以上,与基于正则表达式的方法相比提高了20%以上,效果较好。
- 欧阳辉禄乐滨
- 关键词:元数据抽取多类分类平衡二叉树
- 基于证据理论的论文元数据抽取算法研究被引量:3
- 2010年
- 针对PDF文件的特点,应用pdfbox开源库对PDF文件进行解析,去除PDF文件的文件头、交叉引用表以及文件尾等额外的文档描述信息得到目标信息。在研究不确定性理论的基础上,确定初始证据各种特征的可信度计算方法,通过推理网络及证据理论的推理算法,得到各个证据的可信度,最后比较各个证据可信度,对论文元数据进行抽取。实验表明,各类元数据的查全率都在87%以上,查准率都在92%以上,与常用的正则表达式方法相比准确率提高了10%以上,大幅提高了工作效率。
- 欧阳辉禄乐滨
- 关键词:元数据抽取不确定性证据理论
- 基于C4.5的论文元数据抽取算法研究被引量:4
- 2010年
- 基于特征相似度的论文元数据抽取算法与传统的DOM树方法相比,提高了论文元数据的抽取成功率。但论文元数据的抽取效率却不高,而论文元数据的抽取与蜘蛛的论文爬取是同时进行的,对元数据的抽取有实时性要求,因此影响了论文数据量的增加。经过比较研究,利用决策树中的C4.5算法对特征相似度算法进行改进,论文元数据的抽取成功率提高了2%,抽取效率提高了62%。
- 欧阳辉禄乐滨钱建立
- 关键词:元数据抽取决策树C4.5特征相似度