国家自然科学基金(60372016)
- 作品数:7 被引量:122H指数:5
- 相关作者:赵军徐波吕碧波刘非凡吴友政更多>>
- 相关机构:中国科学院自动化研究所更多>>
- 发文基金:北京市自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向文本检索的语义计算被引量:33
- 2005年
- 随着信息社会尤其是互联网的发展,人们对文本检索的要求越来越高.作为对传统关键词匹配技术的改进,智能检索研究已经成为热点,并将是支撑下一代互联网的核心技术之一.将语义计算技术应用于文本检索,是智能检索的重要方向.文中在文本检索的两个关键技术(“标引”和“相似度计算”)中引入语义计算技术,用浅层语义来指导检索过程,提高检索准确率.针对“标引”技术,提出了语义树模型;针对“相似度计算”,基于语义张量的概念,结合自然语言处理的一些技术,提出三个可计算的窗口模型来近似语义张量的核心思想.以上工作在一定程度上实现了语义计算的功能.利用TREC数据集进行的评测表明,采用了语义计算技术后,文本检索的准确率可以提高10%左右.
- 赵军金千里徐波
- 关键词:文本检索自然语言处理语义计算语义树
- 基于相关文档池建模的查询扩展被引量:12
- 2006年
- 在信息检索领域,相关反馈是提高检索性能的有效方法之一。所谓相关反馈,指用户按照一定策略从查找到的相关文档中选择一些和主题相关的词进行查询扩展的技术。本文介绍了概率模型和向量空间模型下的常用查询扩展方法,并提出了一种基于语言模型的相关反馈方法,该方法同时考虑了扩展词应该具备的两个特征,即相关性和覆盖性。在TREC测试集上对这些算法进行了比较,结果表明这种新算法在平均准确率上比传统方法有所提高。
- 吕碧波赵军
- 关键词:计算机应用中文信息处理信息检索查询扩展
- 基于主题语言模型的句子检索算法被引量:8
- 2007年
- 提出了基于主题语言模型的汉语问答系统句子检索算法,该算法利用问答系统中特有的提问分类信息(即提问的答案语义信息)对句子初检结果进行主题聚类,通过AspectModel将句子所属的主题信息引入到语言模型中,从而获得对句子语言模型更精确的描述.对于初检结果的聚类,提出了“一个句子多个主题”和“一个句子一个主题”两种算法.相对于PLSI算法的主题空间维度,提出的主题空间具有更加明确的物理意义;由于不需要迭代运算,运行速度更具优势.对比实验的结果表明,与标准语言模型方法相比,基于主题语言模型的方法可以明显地提高汉语问答系统句子检索模块的性能.
- 吴友政赵军徐波
- 关键词:汉语问答系统语言模型
- TREC中提高检索鲁棒性的技术研究
- 本文提出了两种提高检索鲁棒性的方法:(1)词义熵权重计算公式;(2)两级处理策略。在NLPR-IR信息检索系统上,以TRECRobust任务提供的大规模标准文本库(528155篇文档,250个公开的查询主题)为评测平台,...
- 徐晋赵军吕碧波徐波
- 关键词:信息检索鲁棒性
- 文献传递
- 面向商务信息抽取的产品命名实体识别研究被引量:55
- 2006年
- 市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchical hid-den Markov model)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统。实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7%,86.9%,75.8%。通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力。
- 刘非凡赵军吕碧波徐波于浩夏迎炬
- 关键词:计算机应用中文信息处理
- 基于无监督学习的问答模式抽取技术被引量:11
- 2007年
- 本文提出了一种基于无监督学习算法的问答模式抽取技术从互联网上抽取应用于汉语问答系统的答案模式。该算法可以避免有监督学习算法的不足,它无需用户提供<提问,答案>对作为训练集,只需用户提供每种提问类型两个或以上的提问实例,算法即可通过Web检索、主题划分、模式提取、垂直聚类和水平聚类等步骤完成该类型提问的答案模式的学习。实验结果表明,论文提出的无监督问答模式学习方法是有效的,基于模式匹配的答案抽取技术能够较大幅度地提高汉语问答系统的性能。
- 吴友政赵军徐波
- 关键词:人工智能自然语言处理汉语问答系统
- 863信息检索评测——自动化所
- 2006年
- 本文主要介绍我们参加863信息检索评测的情况。我们的信息检索系统采用基于语言模型的信息检索方法,将命名实体技术运用在查询向量的构造中,利用基于链接分析的PageRank算法计算文档的先验概率,并在自动查询中采用了相关反馈技术。文章还介绍了系统构成的软硬件环境及相关评测数据,给出了对待自动查询和人工查询的不同策略,并通过实验结果的比较,分析了中文信息检索中比较有效的方法,最后给出了系统存在的不足以厦今后改进的方向。
- 吕碧波王根赵军
- 关键词:信息检索语言模型
- 实体提及的多层嵌套识别方法研究被引量:4
- 2007年
- 实体识别在许多自然语言处理应用系统中发挥着极其重要的作用。目前大部分研究集中在命名实体识别,且不考虑实体之间的嵌套,本文在自动内容抽取评测(Automatic Content Extraction,ACE)背景下,对汉语文本中各种实体提及(命名性,名词性,代词性)的多层嵌套识别进行了研究。我们将嵌套实体识别分成两个子任务:嵌套实体边界检测和实体多层信息标注。首先,本文提出了一种层次结构信息编码方法,将多层嵌套边界检测问题转化为传统的序列标注问题,利用条件随机场模型融合多种特征进行统计决策。其次,将多层信息标注问题看作分类问题,从实现的角度设计了含有两个分类引擎的并行SVM分类器,避免了对每层信息标注都设计一个分类器,比采用单一分类器在性能上有明显提高。在标准ACE语料上的实验表明,基于条件随机场的多层实体边界检测模型正确率达到71%,融合特征选择策略的两个并行分类引擎的正确率也分别达到了89.05%和82.17%。
- 刘非凡赵军徐波
- 关键词:人工智能自然语言处理条件随机场支持向量机
- 构建汉语问答系统评测平台
- TREC、NICIR和CLEF等评测的成功已经证明:系统化、大规模的定量评测对问答系统的研发有巨大的推动作用。然而,缺乏汉语问答系统评测机制已经成为制约汉语问答技术发展的主要障碍。本研究小组在吸收英文、日文等问答系统评测...
- 吴友政赵军段湘煜徐波
- 关键词:汉语问答系统评测
- 文献传递