云南省自然科学基金(2008CC023)
- 作品数:15 被引量:77H指数:4
- 相关作者:余正涛郭剑毅毛存礼线岩团雷春雅更多>>
- 相关机构:昆明理工大学云南省智能信息处理研究所北京航空航天大学更多>>
- 发文基金:云南省自然科学基金国家自然科学基金云南省教育厅科学研究基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于信息熵的半监督领域实体关系抽取研究被引量:3
- 2011年
- 针对监督机器学习方法抽取实体关系受限于标注语料的规模问题,提出采用信息熵方法来不断扩展小规模训练数据的半监督领域实体关系抽取。结合领域词汇选取小规模训练数据,构建了一定准确率的初始最大熵分类器,用来从未标记数据中预测出候选新实例。采用信息熵方法,通过设定不同熵值,多次循环以选取可信度较高的新实例来扩展训练数据。使用扩展后的训练数据重新迭代训练分类器,分类器性能趋于稳定迭代终止,实现了半监督学习的领域实体关系抽取。实验表明,和已有方法相比,本文提出的半监督领域实体关系抽取通过结合信息熵方法,在小规模标注样本环境中取得了较好的学习效果。
- 郭剑毅雷春雅余正涛苏磊赵君田维
- 关键词:信息熵最大熵分类器
- 融合特征约束模型的纳西-汉语双语词语对齐算法被引量:2
- 2011年
- 针对纳西语、汉语因句法结构差异较大而导致双语词语自动对齐较为困难的问题,提出一种融合特征约束模型的纳西-汉语双语词语对齐算法.首先在语料中统计纳西-汉语词语区间扭曲和位置转换特性,并由此建立2个双语词语对齐的特征约束模型;然后将提出的特征约束模型融入词语对齐的对数线性模型框架,并结合最小错误率算法训练模型参数;最终搜索出最佳的词语对齐结果.实验以IBM Model3为词语对齐比较模型,结果表明,该双语词语对齐算法可以使纳西-汉语词语的对齐准确率提升21.9%.
- 张涛余正涛郭剑毅曹先彬
- 关键词:词语对齐汉语
- 结合依存句法与实体的领域答案句模学习方法
- 针对受限领域问答系统答案句子模式的特点,提出了一种结合依存句法与领域实体的答案句子模式学习方法,该方法首先通过已标记的问题类型及答案的问题检索召回候选答案片段,对答案候选片段进行领域实体识别和依存句法分析,提取候选答案句...
- 赵兴余正涛邹俊杰郭剑毅毛存礼
- 关键词:旅游领域答案抽取
- 文献传递
- 中文问答对过滤方法研究
- 2009年
- 问答对过滤是准确自动获取问答对的关键。提出针对领域和面向句子的中文问答对过滤方法,结合句法结构关系和领域特征,选取句子主干与领域词汇作为分类特征,采用贝叶斯分类学习方法进行领域问答对过滤;根据中文语言相关性,融合句法、词法及语义要素,计算句子与问答对相关性,以相关性为基础,过滤面向句子相关的问答对。实验结果表明,提出的过滤方法均取得了较好的效果,相对传统过滤方法,能够提高问答对过滤的准确率。
- 毛煜余正涛孟祥燕张志坤许洋波郭剑毅
- 关键词:贝叶斯
- 结合FCA与Jena的领域本体半自动构建方法研究被引量:5
- 2013年
- 针对本体构建中难于发现隐含知识及本体编码效率低下等问题,提出了一种结合FCA与Je-na的领域本体半自动构建方法。该方法根据实例集合和它们所具有的属性集合来构造初始本体,即形式背景,接着构造概念格,将本体可视化,进而发现隐含的概念以及概念间的关系;再将这些概念及其之间的关系映射成本体主干;最后根据提供的属性值丰富本体主干。基于Jena选用OWL对以上建立的本体原型进行编码和形式化,完成领域本体的构建。以云南旅游领域为背景构建旅游本体原型系统,证明了本文所提出的本体构建方法的有效性,并在领域可移植性、本体构建效率及自动化程度等方面进行系统评测,取得良好效果。经与人工构建结果对比,证明了构建结果的有效性。
- 田维郭剑毅余正涛线岩团王炎冰
- 关键词:形式概念分析JENA形式化
- 纳-汉双语语料库构建及双语语料对齐被引量:2
- 2009年
- 当前存在着部分纳西语-汉语双语互译文本,利用这些双语互译文本构建大规模的双语语料库,是双语互译文本的深层加工及其双语词典编纂、跨语言信息检索面临的关键问题。提出了一个大规模纳-汉双语语料库的构建方案,包括其总体规划标准制定、实施方案和流程细节。通过组织构建纳-汉双语语料库,实现双语语料库在统计的机器翻译系统中的应用,并实现纳-汉之间的双语对照翻译系统,较好地提高翻译的准确性和可读性,进而推动少数民族语言信息化的发展。
- 赵芳婷余正涛线岩团郭剑毅毛存礼候波
- 关键词:双语语料库双语对照机器翻译
- 领域本体概念实例、属性和属性值的抽取及关系预测被引量:32
- 2012年
- 研究了如何使用协作分类器(协作使用条件随机场(CRFs)和支持向量机(SVM))解决领域概念实例、属性及属性值的抽取以及它们三者之间对应关系预测的问题.首先将概念实例、属性及属性值看作三类实体,把概念实例、属性及属性值的抽取问题转化为命名实体识别问题,利用条件随机场建模进行命名实体识别;在此基础上定义实体间对应关系,对概念实例、属性及属性值三者的对应关系做预测,把概念实例、属性与属性值三者之间存在关系的向量标记为1,否则标记为0,利用支持向量机建模进行关系的预测.且以云南旅游景点概念实例、属性及属性值进行六组相关的实验.实验表明,在开放测试中协作分类器精确度达到84.4%、召回率达到82.7%及F值达到为83.6%,相比于词语共现F值提高了20个百分点.
- 郭剑毅李真余正涛张志坤
- 关键词:领域本体属性抽取条件随机场支持向量机
- 中文专家实体主页识别方法研究
- 2011年
- 专家实体主页识别是专家检索的一个重要的组成部分,本文提出了一种基于J48的机器学习算法来对中文专家实体主页进行分类识别。首先,人工收集中文专家实体及对应的专家主页面2 113个,针对中文专家实体特点,定义与链接和网页内容特征相关的专家实体特征,并对这些特征进行提取,形成训练数据集。然后,采用不同学习算法对在不同特征上的页面进行主页识别,寻找最有效的分类特征和主页识别学习算法。最后,对不同特征、不同算法进行测试,实验结果表明,采用J48算法,结合链接与网页内容特征,中文专家实体主页识别取得了较好的效果,其识别准确率达到了81.05%。
- 李丽娜余正涛王亚盛毛存礼郭剑毅
- 关键词:链接特征网页特征
- 旅游领域实体答案的抽取被引量:2
- 2009年
- 提出一种基于模式匹配与命名实体识别相结合的领域答案抽取方法,该方法用答案模式串、答案模式权值和答案类型三要素来定义并构建答案模式库,结合旅游领域命名实体识别方法和模式匹配方法,实现了旅游领域实体答案的抽取。在旅游领域进行实体答案抽取实验,取得了较好的效果,其中召回率达88.78%,准确率达86.04%。
- 李桂兰余正涛毛存礼郭剑毅侯波线岩团
- 关键词:答案抽取命名实体识别
- 利用问句语义结构构建旅游领域数据库查询
- 2009年
- 为了提高数据库查询的准确率,提出一种利用问句语义结构构建领域自然语言数据库查询方法。该方法通过定义问句语义模板,借助领域知识,对领域问句进行语义分析,提取问句语义块,并通过语义模式匹配实现问句语义模板向SQL的转换,从而实现自然语言数据库查询。在云南旅游领域实验的结果表明,该方法取得了较好的效果。
- 王凤林余正涛毛存礼郭剑毅
- 关键词:自然语言查询数据库查询