国家高技术研究发展计划(2002AA117010-09)
- 作品数:18 被引量:106H指数:6
- 相关作者:赵铁军王晓龙刘秉权刘远超杨沐昀更多>>
- 相关机构:哈尔滨工业大学东北林业大学昆明理工大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金山西省青年科技研究基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 中文名实体识别中的特征组合与特征融合的比较被引量:10
- 2005年
- 先分析了最大熵模型常用的特征线性组合方法中的权值偏置问题,然后提出了在线性组合之前,对特征进行融合,并根据融合特征和目标类别之间的互信息选择有效复合特征的方法。通过在包含2000个人名的语料库上的测试,表明特征融合能有效地提高名实体识别的精度和召回率。
- 赵健王晓龙关毅
- 关键词:最大熵模型
- 一种基于软模式的语义类发现方法
- 2007年
- 为解决基于模式的方法发现语义类时召回率和精确率低的问题,提出了一种基于软模式的语义类发现方法,该方法首先利用bootsrapping方法获得传统的模式,即硬模式,然后再扩展生成软模式,最后通过计算待测模式的分值实现软模式的模糊匹配,从而完成语义类的发现.在人民日报语料上测试最低召回率可达到60.1%.表明由于软模式可以包含丰富的信息,形式更加灵活,而且可进行模糊匹配,在保证系统高召回率方面表现良好.
- 谭红叶赵铁军
- 机器翻译系统跨领域移植方法的研究被引量:1
- 2005年
- 机器翻译系统跨领域移植是降低系统开发代价的关键性因素。论文以翻译模板对训练语料库机器译文评测分数的贡献为依据,对其进行评价。从模板库中过滤出适应目标领域的翻译知识,以实现系统向新领域的快速移植。利用论文所提出的方法将一个通用领域的机器翻译系统向旅游领域进行移植,并使用来自旅游领域的2469句汉语句子作为测试语料进行开放测试。实验结果表明在开放测试中,机器译文的5元Nist评分提高了2.2807,上升了71.1%。
- 张春祥赵铁军杨沐昀李生时晓升
- 关键词:机器翻译系统
- 多文档文摘中基于语义相似度的最大边缘相关技术研究
- 多文档自动文摘致力于从多篇文档中将全面、简洁的摘要性文档呈现给用户,提高用户获取信息的效率。本文提出了基于语句级语义相似度的最大边缘相关方法来选取文摘句,为生成高质量的文摘提供文摘单元支持。实验结果表明,与基于相关度大小...
- 刘寒磊关毅徐永东
- 关键词:多文档自动文摘MMR语义相似度
- 文献传递
- 基于聚类分析策略的用户偏好挖掘被引量:12
- 2005年
- 利用训练文档集准确高效地挖掘隐藏的用户文本偏好和概念向量是文本信息过滤和多文档自动文摘等自然语言处理应用的关键技术之一。针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的文本偏好挖掘方法。其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约简,获得表示用户不同主题偏好的概念向量。实验结果表明该方法具有对用户的文本偏好刻画更加精确,对相关阈值变化不敏感等优点,可以与Rocchio等算法结合来进行用户兴趣建模。
- 刘远超王晓龙刘秉权钟彬彬
- 英语基本名词短语识别技术研究被引量:5
- 2004年
- 基本名词短语识别是自然语言处理领域的非常重要的子任务。文中总结了英语名词短语识别的一些代表性的方法并对识别结果进行了比较和对照,介绍了识别名词短语所需的知识、结果的表示和评价标准;最后指出了目前名词短语识别的发展趋势。该研究对相关领域研究起到借鉴作用。
- 梁颖红赵铁军岳琪
- 关键词:名词短语
- 面向事件的多语平行语料库构建研究被引量:6
- 2005年
- 讨论了面向北京奥运的多语语料库建设中的若干基础问题。提出了面向事件、多领域融合的语料收集原则,制定了具有分类信息的标注规范,初步建立了具有近七万句对的可控多语语料库。
- 张姝赵铁军杨沐昀李生
- 基于关联度评价的中心词扩展的英文文本语块识别被引量:4
- 2006年
- 传统的英文文本语块识别的方法大多是通过设定相应的短语标识符号,最终把语块识别问题转化成词性标注问题来解决·实验表明,这种方法不能充分考虑相邻词性的关系和每种短语的内部组成规律·关联度评价中心词扩展的英文文本语块识别方法从另外一个角度来识别英文文本语块·它具有以下特点:①把每个短语看成是以中心词为核心的聚簇,充分考虑每种短语的内部组成规律;②使用关联度和可信度动态地评价得到的结果·通过对公共测试集的测试,此方法识别的速度较快,而且英语语块识别的F测度值达到了94·05%,与目前的最好结果相当·
- 梁颖红赵铁军刘博杨沐昀
- 一种基于文章主题和内容的自动摘要方法被引量:20
- 2004年
- 文章介绍了一种新的使用自然语言处理技术的自动系统。通过融合基于内容的方法和基于主题的方法,将主题与内容相结合,生成具有良好连贯性和流畅性的。该方法首先对主题词进行分析,动态地处理具有抽象标题和具体标题的文档;然后采用词汇、语法、语义分析等自然语言处理技术,对文章的文本内容进行深入分析;再根据线性加权融合两种分析得到的结果,生成;最后采用指代消解技术使生成的更连贯流畅。与仅基于内容的自动文摘系统相比较,评测结果显示,该系统生成的质量有明显提高。
- 陈燕敏王晓龙刘远超楼喜中
- 关键词:自动文摘自然语言处理主题分析
- 融合聚类触发对特征的最大熵词性标注模型被引量:30
- 2006年
- 为解决传统HMM词性标注模型不能包含远距离词特征的问题,提出了形如“WA→WB/TB”的触发对来承载远距离词特征信息,并采用平均互信息量度对触发对特征进行选择·在最大熵框架下,将选择后的触发对特征加入到词性标注系统中·利用矢量空间模型提供的语义相似度计算功能进行词语聚类,聚类的结果和语义词典融合,建立聚类触发对特征用来解决触发词“WA”的数据稀疏问题·实验结果表明,与HMM相比,融合了聚类触发对特征的最大熵模型标注错误率减少了34%·
- 赵岩王晓龙刘秉权关毅
- 关键词:词性标注最大熵模型矢量空间模型语义相似度计算