您的位置: 专家智库 > >

北京市自然科学基金(4052027)

作品数:7 被引量:194H指数:5
相关作者:赵军徐波吕碧波吴友政刘非凡更多>>
相关机构:中国科学院自动化研究所更多>>
发文基金:北京市自然科学基金国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 7篇期刊文章
  • 4篇会议论文

领域

  • 10篇自动化与计算...
  • 1篇语言文字

主题

  • 4篇信息检索
  • 3篇语言处理
  • 3篇自然语言
  • 3篇自然语言处理
  • 2篇信息处理
  • 2篇语言模型
  • 2篇中文
  • 2篇中文信息
  • 2篇中文信息处理
  • 2篇问答系统
  • 2篇计算机
  • 2篇计算机应用
  • 1篇信息抽取
  • 1篇语言
  • 1篇语言特征
  • 1篇语义计算
  • 1篇语义树
  • 1篇支持向量
  • 1篇支持向量机
  • 1篇随机场

机构

  • 11篇中国科学院自...

作者

  • 11篇赵军
  • 7篇徐波
  • 3篇吕碧波
  • 2篇刘康
  • 2篇刘非凡
  • 2篇段湘煜
  • 2篇吴友政
  • 1篇王根
  • 1篇金千里
  • 1篇徐晋

传媒

  • 5篇中文信息学报
  • 1篇计算机研究与...
  • 1篇计算机学报
  • 1篇全国第八届计...

年份

  • 5篇2007
  • 3篇2006
  • 3篇2005
7 条 记 录,以下是 1-10
排序方式:
问答式检索技术及评测研究综述被引量:85
2005年
问答式检索系统(简称问答系统)是集自然语言处理技术和信息检索技术于一身的新一代搜索引擎。它的出现旨在提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。经过这几年的发展,问答系统已经成为自然语言处理领域和信息检索领域的一个重要分支和新兴的研究热点,其“通过系统化、大规模地定量评测推动研究向前发展”的发展轨迹,以及某些成功的启示,如基于字符表层的文本分析技术(模板技术)的有效性,快速、浅层自然语言处理技术的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾问答系统研究的历史,总结问答技术的研究现状,将有助于这方面工作向前发展。
吴友政赵军段湘煜徐波
关键词:自然语言处理问答系统信息抽取信息检索
基于动作建模的中文依存句法分析
决策式依存句法分析,也就是基于分析动作的句法分析方法,常常被认为是一种高效的分析算法,但是它的性能稍低于一些更复杂的句法分析模型。本文将决策式句法分析同产生式、判别式句法分析这些复杂模型做了比较,试验数据采用宾州中文树库...
段湘煜赵军徐波
文献传递
面向文本检索的语义计算被引量:33
2005年
随着信息社会尤其是互联网的发展,人们对文本检索的要求越来越高.作为对传统关键词匹配技术的改进,智能检索研究已经成为热点,并将是支撑下一代互联网的核心技术之一.将语义计算技术应用于文本检索,是智能检索的重要方向.文中在文本检索的两个关键技术(“标引”和“相似度计算”)中引入语义计算技术,用浅层语义来指导检索过程,提高检索准确率.针对“标引”技术,提出了语义树模型;针对“相似度计算”,基于语义张量的概念,结合自然语言处理的一些技术,提出三个可计算的窗口模型来近似语义张量的核心思想.以上工作在一定程度上实现了语义计算的功能.利用TREC数据集进行的评测表明,采用了语义计算技术后,文本检索的准确率可以提高10%左右.
赵军金千里徐波
关键词:文本检索自然语言处理语义计算语义树
基于相关文档池建模的查询扩展被引量:12
2006年
在信息检索领域,相关反馈是提高检索性能的有效方法之一。所谓相关反馈,指用户按照一定策略从查找到的相关文档中选择一些和主题相关的词进行查询扩展的技术。本文介绍了概率模型和向量空间模型下的常用查询扩展方法,并提出了一种基于语言模型的相关反馈方法,该方法同时考虑了扩展词应该具备的两个特征,即相关性和覆盖性。在TREC测试集上对这些算法进行了比较,结果表明这种新算法在平均准确率上比传统方法有所提高。
吕碧波赵军
关键词:计算机应用中文信息处理信息检索查询扩展
基于主题语言模型的句子检索算法被引量:8
2007年
提出了基于主题语言模型的汉语问答系统句子检索算法,该算法利用问答系统中特有的提问分类信息(即提问的答案语义信息)对句子初检结果进行主题聚类,通过AspectModel将句子所属的主题信息引入到语言模型中,从而获得对句子语言模型更精确的描述.对于初检结果的聚类,提出了“一个句子多个主题”和“一个句子一个主题”两种算法.相对于PLSI算法的主题空间维度,提出的主题空间具有更加明确的物理意义;由于不需要迭代运算,运行速度更具优势.对比实验的结果表明,与标准语言模型方法相比,基于主题语言模型的方法可以明显地提高汉语问答系统句子检索模块的性能.
吴友政赵军徐波
关键词:汉语问答系统语言模型
TREC中提高检索鲁棒性的技术研究
本文提出了两种提高检索鲁棒性的方法:(1)词义熵权重计算公式;(2)两级处理策略。在NLPR-IR信息检索系统上,以TRECRobust任务提供的大规模标准文本库(528155篇文档,250个公开的查询主题)为评测平台,...
徐晋赵军吕碧波徐波
关键词:信息检索鲁棒性
文献传递
基于布局特征与语言特征的网页主要内容块发现
本文综合分析了网页内容块各方面的特征,提出了一个联合使用布局特征和语言特征的网页主要内容块发现方法,有效地解决了以往模型中通用性与高准确率不能共存的缺点。该方法使用网页视觉块树表示网页,对网页内容块的布局特征和语言特征分...
韩先培刘康赵军
关键词:语言特征
文献传递
面向商务信息抽取的产品命名实体识别研究被引量:55
2006年
市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchical hid-den Markov model)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统。实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7%,86.9%,75.8%。通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力。
刘非凡赵军吕碧波徐波于浩夏迎炬
关键词:计算机应用中文信息处理
基于层叠CRFs模型的句子褒贬度分析研究
本文研究句子的褒贬度分析问题。针对目前文本分类方法不能考虑上下文信息的问题,以及单层模型中的由于标记冗余引起的分类精度不同问题,本文提出了基于层叠式 CRFs 模型的句子褒贬度分析方法,利用多个 CRFs 模型从粗到细分...
刘康赵军
文献传递
863信息检索评测——自动化所
2006年
本文主要介绍我们参加863信息检索评测的情况。我们的信息检索系统采用基于语言模型的信息检索方法,将命名实体技术运用在查询向量的构造中,利用基于链接分析的PageRank算法计算文档的先验概率,并在自动查询中采用了相关反馈技术。文章还介绍了系统构成的软硬件环境及相关评测数据,给出了对待自动查询和人工查询的不同策略,并通过实验结果的比较,分析了中文信息检索中比较有效的方法,最后给出了系统存在的不足以厦今后改进的方向。
吕碧波王根赵军
关键词:信息检索语言模型
共2页<12>
聚类工具0