教育部科学技术研究重点项目(207148) 作品数:12 被引量:116 H指数:6 相关作者: 蔡东风 季铎 张桂平 杨洁 白宇 更多>> 相关机构: 沈阳航空工业学院 辽东学院 沈阳航空航天大学 更多>> 发文基金: 教育部科学技术研究重点项目 国家高技术研究发展计划 辽宁省自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于联合权重的多文档关键词抽取技术 被引量:18 2008年 该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×ProportionalDocument Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词。该方法综合考虑了词语的频率,词性以及词语之间的语义相似性等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高3%,召回率提高7%,F-measure提高4.4%。 杨洁 季铎 蔡东风 林晓庆 白宇关键词:计算机应用 中文信息处理 多文档 语义相似度 基于语义预测的双语术语相似度计算 双语术语相似度计算在跨语言信息检索等领域有重要的应用。目前双语术语相似度计算主要有基于统计和语言学两类方法,其中,本文针对语言学中基于词典的术语相似度计算效果受词典覆盖面影响较大的缺点,提出基于词典的语义预测扩展相似度算... 刘磊 张桂平 蔡东风 季铎关键词:动态规划 文献传递 基于统计和规则相结合的科技术语自动抽取研究 被引量:38 2008年 科技术语自动抽取是中文信息处理领域的一个重要研究课题,在信息检索、机器翻译等领域,特别是在专利翻译中有着广泛应用。结合专利翻译任务,主要研究专利中科技术语的识别方法,在分析目前已有方法的基础之上,提出了一种使用条件随机场模型进行标注识别,并结合规则对错误识别结果进行后处理的科技术语识别方法。实验结果表明,提出的统计和规则相结合的识别方法是有效的,开放测试结果F值达到了84.4%。 刘豹 张桂平 蔡东风关键词:条件随机场 潜在语义索引中特征优化技术的研究 被引量:8 2009年 潜在语义索引被广泛应用于信息检索、文本分类、自动问答等领域中。潜在语义索引是一种降维方法,它把共现特征映射到同一维空间上,而非共现特征映射到不同的空间上。在潜在语义索引的语义空间中,共现特征通过文档内部以及文档之间的特征传递关系获得。该文认为这种特征传递关系会引入一些不存在的共现特征,从而降低潜在语义索引的性能,应该对这种特征传递关系进行一些选择,削除不存在的共现特征信息。该文采用文档频率对文档集合进行特征选择,用Complete—Link聚类算法在两个公开语料上进行三个实验,实验结果显示,保留文档频度的10%~15%时,其F1值分别提高了6.5770%,1.9928%和3.3614%。 季铎 郑伟 蔡东风关键词:计算机应用 中文信息处理 潜在语义索引 奇异值分解 潜在语义索引中特征优化技术的研究 潜在语义索引被广泛应用于信息检索、文本分类、自动问答系统等领域中。潜在语义索引是一种降维方法,它把共现特征映射到同一维空间上,而非共现特征映射到不同的空间上。在潜在语义索引的语义空间中,共现特征通过文档内部以及文档之间的... 郑伟 季铎 蔡东风关键词:潜在语义索引 奇异值分解 文献传递 面向事实性问题的答案选择技术研究综述 2009年 答案选择是问答系统的一个关键步骤,它的任务是从候选答案集中选择出最佳答案返给用户,其主要研究内容包括答案选择的标准、方法及评价。该文首先介绍了主要的答案选择标准,分析了答案选择标准与问答系统评测之间的关系。然后将答案选择策略分为基于冗余的策略、基于相似性的策略和基于推理的策略,分别对每种策略的主要答案选择方法和特点进行了概述。随后又介绍了答案选择的评价指标及答案验证评测。最后讨论了答案选择所面临的主要问题,并对其未来的发展方向进行了展望。 董燕举 蔡东风 白宇关键词:计算机应用 中文信息处理 自然语言处理 问答系统 基于TextRank的多文档关键词抽取技术 本文提出一种基于TextRaak的多文档关键词抽取方法,该方法利用ATFPDF方法计算文档集中的词语权重,抽取权重较大的实词为候选关键词,并根据候选关键诃之问的语义相似关系建立TextRank模型,递归计算至收敛,最后生... 杨洁 季铎 蔡东风 代翠关键词:多文档 语义相似度 文献传递 统计和规则相结合的汉语最长名词短语自动识别 被引量:17 2008年 在分析汉语最长名词短语特点的基础上,提出了一种统计和规则相结合的汉语最长名词短语自动识别方法:通过实验词及词性的不同组合选择特征集合,基于该特征训练得到条件随机场(CRF)识别模型;分析错误识别结果,结合最长名词短语的边界信息和内部结构信息构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面的不足。实验结果表明,用统计和规则相结合的方法识别最长名词短语是有效的,系统开放测试结果F值达到了90.2%。 代翠 周俏丽 蔡东风 杨洁关键词:计算机应用 中文信息处理 条件随机场 文本聚类中基于知网的特征抽取方法 本文将语义分析引入到文本聚类的任务中,提出了一种基于知网的特征抽取方法。针对词语的一词多义的现象,从全文的角度考察词的语义,结合相关概念场,将词义排歧转化为对相关概念场中的词在全文出现频率的计算。实验证明,经过词义消歧后... 王智超 季铎 蔡东风 张桂平关键词:知网 特征抽取 文本聚类 文献传递 基于文本最小相似度的中心选取方法 被引量:3 2008年 基于划分的聚类算法是一种局部最优算法。聚类初始中心的选择对该聚类算法的收敛速度和聚类的性能都有很大的影响。初始中心点应该选择来自不同的类并且初始中心点文本之间的相似度应尽量小,为此提出了一种新的基于最小相似度的中心选取方法,该方法选择相似度最小的两个样本分别作为初始的两个中心,然后依次选择到已知中心相似度最小的样本作为其他类的中心。实验表明该方法能够选出来自不同类的样本作为聚类的初始中心,同其他初始中心选择方法比较,聚类算法的性能有明显提高。 郑伟 季铎 蔡东风 王爽关键词:文本聚类