史西兵
- 作品数:4 被引量:14H指数:2
- 供职机构:西安财经学院信息学院更多>>
- 发文基金:陕西省自然科学基金陕西省教育厅科研计划项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于XML的Web信息抽取技术研究
- 互联网的飞速发展使其成为全球信息传播与共享的重要资源,Web上的数据一直呈几何级数增长,要想从Web上获取一条有用信息的难度却越来越大,“信息过载”已经成为一个亟待解决的问题。一种理想的情况是:人们可以像查询数据库一样查...
- 史西兵
- 关键词:WEB信息抽取技术XML技术抽取规则
- 文献传递
- 隐马尔可夫模型解决信息抽取问题的仿真研究被引量:5
- 2010年
- 研究Web文档服务的准确性和快速性,网络信息抽取成为处理海量网络信息的重要手段,而大量异构信息的有效抽取是非常困难的,为了改进和提高系统对于海量异构网页信息的抽取查全率和查准率,提出了一种新的信息抽取的方法,算法利用了隐马尔可夫模型在处理规则知识上的优势对每个页面构建HTML树,并利用Shannon熵来定位数据域,再用Maxi-mum Likelihood方法实现隐马尔可夫模型的构建,实现对Web信息的抽取。仿真结果表明,通过对大量学术论文头部结构信息的抽取,应用算法可以使信息抽取在召回率和准确率方面有明显的提高。
- 史西兵王浩鸣
- 关键词:隐马尔可夫模型信息抽取极大似然
- 基于智能Agent的中文元搜索引擎模型研究被引量:9
- 2005年
- 论文讨论了现有搜索引擎技术的缺点,比较了中文与英文分词方法的差别,描述了中文文档的基于无词典信息抽取方法。通过分析用户搜索信息的历史,构建用户的个性化搜索模型,并将这些文档进行分档,在本地服务器上进行整理与保存。文中对系统涉及的关键技术:文档类关键词提取方法、用户特征的建立方法、页面价值评比算法等进行了描述。最后,对进一步研究指明了方向。
- 王浩鸣张曰贤吴志军史西兵
- 关键词:智能代理信息检索