江苏省自然科学基金(BK20130587)
- 作品数:11 被引量:136H指数:6
- 相关作者:王昊邓三鸿苏新宁吴志祥朱惠更多>>
- 相关机构:南京大学更多>>
- 发文基金:江苏省自然科学基金国家社会科学基金江苏省“333”工程基金项目更多>>
- 相关领域:自动化与计算机技术文化科学医药卫生更多>>
- 中文领域专业术语层次关系构建研究被引量:1
- 2016年
- 【目的】对如何从中文非结构化文本获取术语的层次关系进行探讨。【方法】从CNKI获取数字图书馆学科领域文献,通过术语抽取、术语向量空间模型构建、BIRCH算法聚类和聚类标签确定构建术语的语义层次结构。【结果】构建数字图书馆领域术语的层次结构,并对构建结果进行验证,聚类正确率达到80.88%,类标签抽取正确率达到89.71%。【局限】对构建效果的验证是通过随机抽样进行的,且仅与一种其他构建方法进行实证比较。【结论】应用BIRCH算法聚类构建术语层次结构,该方法与K-means聚类方法相比具有明显优势,具备较高的执行效率和聚类有效性。
- 朱惠杨建林王昊
- 关键词:本体本体学习聚类
- 基于形式概念分析的学科术语层次关系构建研究被引量:14
- 2015年
- 本体是领域知识的有效组织和描述,本体学习则是实现本体自动构建的方法体系和技术集合。本文以本体学习理论为指导,提出了一种以文档一术语空间为核心、形式概念分析(FCA)为手段的中文领域本体层次结构自动构建的有效方法,并以“白血病”领域为例,对面向学科资源的医学专业术语层次关联的抽取进行了详细论证,具体包括专业术语的抽取和筛选,术语文档关联的修正等数据清洗过程;文档术语矩阵的建立,领域概念格的自动生成,以及概念格中术语属性的层次关联建立等FCA过程;术语层次关联的自动OWL描述和存储,和领域本体的概念检索和可视化展示过程等。
- 王昊朱惠邓三鸿
- 关键词:学科术语本体学习形式概念分析
- 中文专利术语层次关系解析研究被引量:7
- 2017年
- 对非结构化专利文本中的领域术语进行抽取以及语义关系的解析是挖掘蕴藏在专利文献中的丰富知识,并进行深入应用的前提。本文在领域专利术语有效抽取的基础上,探讨并实现较大规模术语层次关系的解析,构建了含有层次关系的领域知识本体。着重研究了基于位置加权的术语语义空间构建方法,基于主成分分析降维技术进行术语分布可视化以辅助聚类类目的确定方法以及术语层次关系结构中非重复性类目标签的抽取方法。本文工作尽可能实现了较大规模中文专利术语层次关系解析的自动化进行,为术语非层次关系解析以及基于术语语义关系解析的深入应用打下基础。
- 吴志祥王昊王密平
- 关键词:位置加权本体学习
- 面向本体学习的中文专利术语抽取研究被引量:18
- 2016年
- 本文提出了一个无或少训练语料环境下抽取中文专利术语的解决方案。以"钢铁冶金"领域专利文本为例,首先总结了该领域中文术语的基本特征,进而建立了基于字角色标注的机器学习术语识别模型,并通过循环迭代方式重复条件随机场的学习过程,最大限度避免因核心词汇库代替人工带来的标注不准确不充分问题;在此基础上,进一步依据合成规则构造新术语,并经过领域专家确认后添加至核心词汇库中。经过实验论证,基于字角色标注的基本术语抽取F1值高于94%,而基于合成规则的复杂术语抽取准确率也可达到75%。在7597件专利的题名和摘要文本中,最终可获得中文基本术语244672个,合成术语61536个,为领域本体的构建奠定了基础。
- 王昊王密平苏新宁
- 关键词:条件随机场本体学习
- 中文医学专业术语的层次结构生成研究被引量:4
- 2014年
- 本文基于术语共现理论,利用形式概念分析中概念格的自动生成来推理作为属性的领域专业术语的层次结构并进行可视化展示,进而提出了一整套用于实现领域本体概念层次关系构建的解决方案,具体包括文档/词汇与术语语义关联的识别、领域形式化背景的建立、基于形式概念分析的主题概念的生成、基于主题概念格的术语层次关系抽取、术语层次体系的OWL描述和图形展示等。笔者以“白血病”领域为例,详细论证了无知识库支持环境下中文文本到医学学科术语层次结构的衍化过程,并对以文档术语矩阵(DTM)和词汇术语矩阵(WTM)为形式化背景生成的术语层次体系进行了比较分析。
- 王昊苏新宁朱惠
- 关键词:本体学习形式概念分析OWL
- 基于奇异值分解的专利术语层次关系解析研究被引量:6
- 2017年
- 奇异值分解是矩阵分析中常用的分解技术,在高维数据的降维、去噪方面有着广泛的应用。本文将矩阵的奇异值分解技术应用到领域专利术语的层次关系解析中,其核心思想是术语语义空间的深度转换,旨在用某种潜在特征代替文档作为属性来表示术语。具体研究包括,基于位置加权的原始术语-文档语义空间的构建方法、基于奇异值分解的术语特征抽取方法、基于术语-特征语义空间的术语层次关系解析方法。本文对论述的理论方法进行了实证研究,证实了该方法的可行性和有效性,并在此基础上实现较大规模的钢铁冶金领域专利术语层次关系解析,将解析结果纳入到本体学习理论体系中,实现该领域专利术语的知识本体化与可视化。
- 吴志祥王昊王雪颖祁磊苏新宁
- 关键词:本体学习
- 基于CRFs的冶金领域中文专利术语抽取研究被引量:13
- 2016年
- 【目的】探讨冶金领域中文专利术语抽取模型的最优条件,用于有效地抽取冶金领域专利术语。【方法】使用尚不完善的核心语料库,在无需人工标引的情况下,采用条件随机场(CRFs)构建字角色标注的冶金领域中文专利术语识别模型。详细说明模型的构建过程,同时重点对比CFRs的各个因素(特征组合、字长窗口等)对识别效果的影响。【结果】实验结果表明字序列、级别特征、领域特征、温度特征的组合在字长窗口为3,c等于1,f等于1时,准确率达到94.26%,召回率达到94.37%,F1值达到94.5%。【局限】核心词典欠完善,使得部分词语标注不够准确;未与其他方法作详细比较,未详细说明CRFs的可靠性。【结论】CRFs在适当的角色和特征以及特征模板的组合下能较好地识别出冶金领域的中文专利术语。
- 王密平王昊邓三鸿吴志祥
- 关键词:条件随机场术语抽取
- 机器学习在中文期刊论文自动分类研究中的应用被引量:30
- 2014年
- 【目的】在机器学习的计算模式下,利用特征加权和浅层次分类方法可以有效实现期刊论文的中图法分类。【应用背景】传统的人工分类方式在大数据环境下显得力不从心,而期刊电子化趋势使得自动分类技术能够有效缓解人工分类的压力。【方法】将机器学习的思想运用到期刊论文的自动分类领域,分析比较支持向量机和BP神经网络算法在期刊论文自动分类中的效果,利用层次分类理念将中图法转化为三层分类体系,将类目号的获取简化为三层分类的实现,基于特征的来源设置特征值的权重。【结果】分类实验表明,支持向量机算法在大规模稀疏数据环境中较BP神经网络算法更合理,三层体系的分类正确率自顶向下分别达到95.05%、92.89%和89.02%,综合正确率接近80%,多来源的特征权重在论文自动分类中较单一权重具有更好的分类效果。【结论】研究表明机器学习方法在期刊论文的自动分类方面具有较高的可行性、合理性和有效性,为期刊论文自动分类的实现提出新的思路。
- 王昊叶鹏邓三鸿
- 关键词:期刊论文文本自动分类特征加权
- 中文文本聚类常用停用词表对比研究被引量:47
- 2017年
- 【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素,其中两字停用词作用效果最为明显。【局限】实验文本类型及数量有限,同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较,未对停用词按照类别分类进行实验分析。【结论】停用词表对于文本聚类准确度有很大的影响,构建或选取适宜的中文停用词表极为重要。同时,过度增加停用词的数量并不会一直改善聚类结果。
- 官琴邓三鸿王昊
- 关键词:文本聚类停用词
- 中文短文本自动分类中的汉字特征优化研究被引量:4
- 2015年
- 采用含语义的词语或篇幅更长的语言片段作为中文短文本的特征描述存在明显的可操作性问题。文章综合探讨了汉字特征在中文短文本分类计算中的可行性以及影响规律,比较了关键词、词语和汉字的类目区分能力,认为后者的分类效果略低于篇幅大的语言片段,但其具有可计算性强和文本覆盖率高的优点;基于类现频次和信息增益复合方法对汉字特征进行了筛选,总结了汉字特征数量减少对分类效果的影响规律;分析了不同特征权重设置对汉字特征分类效果的影响及其原因,认为汉字在词语中的位置参数及其频次参数的有效结合可以在一定程度上提高汉字特征的分类效果。
- 王昊邓三鸿苏新宁
- 关键词:文本分类汉字特征