云南省中青年学术和技术带头人后备人才项目(2007PY01-11)
- 作品数:5 被引量:62H指数:3
- 相关作者:余正涛郭剑毅雷春雅苏磊毛存礼更多>>
- 相关机构:昆明理工大学云南省智能信息处理研究所更多>>
- 发文基金:云南省中青年学术和技术带头人后备人才项目云南省自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 领域本体概念实例、属性和属性值的抽取及关系预测被引量:32
- 2012年
- 研究了如何使用协作分类器(协作使用条件随机场(CRFs)和支持向量机(SVM))解决领域概念实例、属性及属性值的抽取以及它们三者之间对应关系预测的问题.首先将概念实例、属性及属性值看作三类实体,把概念实例、属性及属性值的抽取问题转化为命名实体识别问题,利用条件随机场建模进行命名实体识别;在此基础上定义实体间对应关系,对概念实例、属性及属性值三者的对应关系做预测,把概念实例、属性与属性值三者之间存在关系的向量标记为1,否则标记为0,利用支持向量机建模进行关系的预测.且以云南旅游景点概念实例、属性及属性值进行六组相关的实验.实验表明,在开放测试中协作分类器精确度达到84.4%、召回率达到82.7%及F值达到为83.6%,相比于词语共现F值提高了20个百分点.
- 郭剑毅李真余正涛张志坤
- 关键词:领域本体属性抽取条件随机场支持向量机
- 基于信息熵的半监督领域实体关系抽取研究被引量:3
- 2011年
- 针对监督机器学习方法抽取实体关系受限于标注语料的规模问题,提出采用信息熵方法来不断扩展小规模训练数据的半监督领域实体关系抽取。结合领域词汇选取小规模训练数据,构建了一定准确率的初始最大熵分类器,用来从未标记数据中预测出候选新实例。采用信息熵方法,通过设定不同熵值,多次循环以选取可信度较高的新实例来扩展训练数据。使用扩展后的训练数据重新迭代训练分类器,分类器性能趋于稳定迭代终止,实现了半监督学习的领域实体关系抽取。实验表明,和已有方法相比,本文提出的半监督领域实体关系抽取通过结合信息熵方法,在小规模标注样本环境中取得了较好的学习效果。
- 郭剑毅雷春雅余正涛苏磊赵君田维
- 关键词:信息熵最大熵分类器
- 基于主动学习的最小二乘支持向量机稀疏化被引量:10
- 2012年
- 针对最小二乘支持向量机(LSSVM)稀疏化问题,提出一种基于主动学习的LSSVM数据稀疏化学习算法。首先基于核聚类的方法选取初始样本,并利用LSSVM构建一个最小分类器,然后计算样本在分类器作用下的分布,选择最接近分类面的样本进行标记,最后将该标记样本加入训练集建立新的分类器,重复上述过程直到模型精度满足要求,以此建立部分样本的LSSVM稀疏化模型。利用加利福尼亚大学欧文分校(UCI)提供的6种数据集进行实验,结果表明,提出的方法使LSSVM的稀疏性提高了46%以上,减少了标注样本带来的成本。
- 余正涛邹俊杰赵兴苏磊毛存礼
- 关键词:最小二乘支持向量机稀疏化
- 基于自扩展与最大熵的领域实体关系自动抽取被引量:3
- 2010年
- 实体关系自动获取是信息抽取的难题之一。本文提出自扩展算法和最大熵机器学习算法相结合的方法,以旅游领域为研究对象进行实体关系的自动抽取。首先利用自扩展算法自动获取能体现实体对间大类关系的语义词汇,该词汇作为特征加入最大熵机器学习算法的特征集,并设定阈值实现训练语料的自动标注;然后使用最大熵机器学习算法对训练语料进行学习,构建实体关系抽取的分类器,实现实体关系的自动获取。在收集600篇旅游领域语料的基础上进行实验,4大类实体关系的抽取获得了较好的结果,其中地理位置关系和时节关系的F值分别为82.56%和81.17%。实验结果表明:在人工干预较少的情况下,加入实体对间的语义词汇能有效提高抽取效果。
- 雷春雅郭剑毅余正涛毛存礼张少敏黄甫
- 关键词:实体关系抽取最大熵
- 基于条件随机场的英文产品命名实体识别被引量:14
- 2010年
- 英文产品命名实体识别目前国内外研究得较少,本文针对TREC 2009英文产品命名实体(EPNE)识别的任务,首次提出了一种基于条件随机场模型(CRF)的英文产品命名实体识别方法。在条件随机场中,该方法以词作为切分粒度,充分利用上下文和英文产品名特有的指示信息作为分类特征,结合手工构建的品牌词表进行建模。实验表明,该方法获得了较好的结果,英文产品实体识别准确率达到93.6%,召回率达到92.4%。
- 张朝胜郭剑毅线岩团余正涛雷春雅王海雄
- 关键词:条件随机场命名实体识别