国家高技术研究发展计划(2008AA01Z145)
- 作品数:3 被引量:75H指数:3
- 相关作者:孙乐王立霞淮晓永张苇如韩先培更多>>
- 相关机构:中国科学院软件研究所中国科学院研究生院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于维基百科和模式聚类的实体关系抽取方法被引量:23
- 2012年
- 该文提出了一种基于维基百科和模式聚类的方法,旨在从开放文本中抽取高准确率的中文关系实体对。首次使用从人工标注知识体系知网到维基百科实体映射的方式获取关系实例,并且充分利用了维基百科的结构化特性,该方法很好地解决了实体识别的问题,生成了准确而显著的句子实例;进一步,提出了显著性假设和关键词假设,在此基础上构建基于关键词的分类及层次聚类算法,显著提升了模式的可信度。实验结果表明该方法有效提升了句子实例及模式的质量,获得了良好的抽取性能。
- 张苇如孙乐韩先培
- 关键词:关系抽取维基百科模式聚类
- 基于单字消除和实体识别的查询切分研究
- 查询切分是对查询进行结构分析和优化的基础。使用常规的分词方法对查询进行切分效果并不理想。在对分词错误进行分析的基础上,本文提出了一种单字消除和实体识别的查询切分方法。基于真实查询数据的实验结果表明,该分词方法的正确率和召...
- 王俞霖孙乐李文波
- 文献传递
- 一种LDA模型的高效并行求解算法
- 统计主题模型是近年来在文本信息处理领域发展起来的重要方法,由于模型结构的复杂性以及所需处理数据的巨大规模,所以迫切需求该类模型的高效求解算法。本文针对隐含主题模型LDA,研究了其变分求解算法的并行化方法。首先,提出一种新...
- 李文波孙乐
- 文献传递
- 基于语义的中文文本关键词提取算法被引量:49
- 2012年
- 为克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,提出一种基于语义的中文文本关键词提取(SKE)算法。将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。实验结果表明,与基于统计特征的关键词提取算法相比,SKE算法提取的关键词能体现文档的主题,更符合人们的感知逻辑,且算法性能较优。
- 王立霞淮晓永
- 关键词:语义相似度中文文本
- 基于规则和类型还原的用户查询意图识别
- 识别网络查询隐含的用户意图是一项具有重要意义和挑战性的工作。本文通过对真实用户查询日志的标注和分析,发现基于规则的方法可以对用户意图进行有效的识别。针对信息类、导航类和事务类三种用户意图,我们总结出若干规则对其进行自动识...
- 王俞霖孙乐黄云平李文波
- 文献传递
- 基于“VASE”特征词的网络查询分类研究被引量:3
- 2009年
- 网络查询分类对提高搜索引擎的搜索质量有重要的意义。该文通过对真实用户查询日志的分析和标注,发现四种特征词(称之为"VASE"特征词)对查询分类起决定性作用。我们提取特征词并构造了一个特征词倒排索引,用于对查询进行主题分类。在此基础之上,提出了基于网络扩展和加权特征词的方法改善分类的效果。实验结果显示,基于此分类方法的正确率和召回率分别达到78.2%和77.3%。
- 王俞霖孙乐李文波
- 关键词:计算机应用中文信息处理网络扩展