国家自然科学基金(60203020)
- 作品数:5 被引量:332H指数:5
- 相关作者:刘挺李生秦兵李彬王洋更多>>
- 相关机构:哈尔滨工业大学更多>>
- 发文基金:国家自然科学基金哈尔滨工业大学校基金资助国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于常问问题集的中文问答系统研究被引量:155
- 2003年
- 首先根据用户的提问建立一个候选问题集,然后通过计算句子语义相似度,在候选问题集中找到相似的问句,并将答案返回给用户.该系统还能够自动地更新和维护FAQ库.实验表明,与基于关键词的句子相似度计算相比,基于语义的句子相似度计算提高了问题匹配的准确率.
- 秦兵刘挺王洋郑实福李生
- 关键词:中文问答系统句子相似度数据库数据结构
- 汉语文语转换系统中停顿指数的自动标注被引量:8
- 2004年
- 本文采用了一个基于C TOBI的停顿指数标注的语料库 ,利用有指导的学习方法对自动停顿指数标注方面做了一些有益的探索。本文共实现了三种方法 :基本的马尔科夫模型 ,引入了词长信息的马尔科夫模型 ,引入词长信息的马尔科夫模型结合基于转换的错误驱动的学习方法。然后通过对 30 0 0句的真实文本进行开放测试 ,以基本的马尔科夫模型的结果作为基准 ,实验结果不断改进 ,最终达到了 78 6 %的准确率 ,错误代价降低了 14 5 %
- 赵永贞刘挺王志伟陈惠鹏邵艳秋
- 关键词:计算机应用中文信息处理文语转换马尔科夫模型
- 命名实体识别和指代消解在文摘系统中的应用被引量:11
- 2006年
- 介绍了一个基于句子抽取的单文档自动文摘系统,在该系统基础上应用了命名实体识别和指代消解技术,最后通过人工评价和自动评价结果讨论命名实体识别和指代消解对文摘系统的贡献。
- 于海滨秦兵刘挺郎君
- 关键词:自动文摘命名实体识别指代消解
- 基于n-gram及依存分析的中文自动查错方法
- 自动校对是自然语言处理领域中一个有着广阔应用前景的研究方向。本文使用字的三元模型对文本进行局部的分析与错误查找,同时将依存文法分析应用于自动校对中,由于依存文法对句子进行全局分析,指出了句子中词与词之间的依存关系,所以能...
- 马金山刘挺李生
- 关键词:自然语言处理N-GRAM模型依存分析
- 汉语文语转换系统中停顿标注的研究
- 本文采用了一个基于C-TOBI的停顿标注等级的语料库,并使用概率统计模型的方法对自动停顿标注方面做了一些有益的探索。首先对样本集进行自动分词和词性标注,接着统计训练集中不同的词性组合和短语长度处停顿的概率信息;然后利用得...
- 赵永贞刘挺王志伟陈惠鹏邵艳秋
- 关键词:文语转换HMM模型
- 文献传递
- 基于改进贝叶斯模型的问题分类
- 随着计算机及互联网络技术的发展,开放域问答系统越来越受到人们的关注,因为它能够给用户提供相对简洁、准确的结果。开放域问答系统通常包括问题分类、问题扩展、搜索引擎、答案抽取和答案选择五个主要部分。问题分类在问答系统中起着很...
- 张宇刘挺文勖
- 关键词:贝叶斯模型问答系统
- 文献传递
- 基于依存分析改进贝叶斯模型的词义消歧被引量:18
- 2003年
- 词义消歧一直是自然语言处理领域的关键问题和难点之一。目前进行的很多词义消歧研究多采用几个多义词作为实验测试对象,在实际应用方面存在着局限性。本文对大规模真实文本进行了词义消歧研究,采用了基于依存分析改进贝叶斯分类模型的有指导词义消歧方法。该模型充分利用依存句法分析,从句子的内部结构,寻找词语之间支配与被支配的关系,借以确定能够对词语语义构成内在限制的上下文,有效地克服了单纯贝叶斯分类器中无关上下文造成的噪声影响。本实验的开放测试正确率可以达到91.89%,封闭实验正确率可达99.4%,验证了改进模型的有效性。
- 卢志茂刘挺张刚李生
- 关键词:依存分析贝叶斯模型词义消歧自然语言处理信息检索贝叶斯分类器
- 基于语义依存的汉语句子相似度计算被引量:179
- 2003年
- 句子间相似度的计算在自然语言处理的各个领域都占有很重要的地位,在多文档自动文摘技术中,句子间相似度的计算是一个关键的问题。由于汉语句子的表达形式是多种多样的,要准确地刻画一个句子所表达的意思,必须深入到语义一级并结合语法结构信息,由此提出了一种基于语义依存的汉语句子相似度计算的方法,该方法取得了令人满意的实验效果。
- 李彬刘挺秦兵李生
- 关键词:相似度计算语义自然语言处理多文档文摘
- 实体关系自动抽取
- 实体关系抽取是信息抽取研究领域中的重要研究课题。本文使用两种基于特征向量的机器学习算法,Winnow 和支持向量机(SVM),在2004年ACE(Automatic Content Extraction)评测的训练数据上...
- 车万翔刘挺李生
- 关键词:实体关系抽取WINNOWSVM
- 文献传递