王东
- 作品数:3 被引量:45H指数:3
- 供职机构:安徽工业大学计算机学院更多>>
- 发文基金:国家自然科学基金安徽省高校省级自然科学研究项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 改进的TF-IDF关键词提取方法被引量:19
- 2013年
- 在TF-IDF算法基础上,提出新的基于词频统计的关键词提取方法。利用段落标注技术,对处于不同位置的词语给予不同的位置权重,对分词结果中词频较高的同词性词语进行词语相似度计算,合并相似度较高的词语,通过词语逆频率TF-IWF算法,按权值排序得到关键词。这种改进算法解决了传统中文关键词提取方法中对相似度高的词的不重视而导致关键词提取精度不高的问题。实验结果表明,改进的算法结果在准确率和召回率上较原有的TF-IDF算法上都得到较好的提升,使得提取的关键词集合能较好体现文本内容。
- 王小林杨林王东镇丽华
- 关键词:知网词语相似度TF-IDF关键词提取
- 基于《知网》的词语语义相似度算法被引量:16
- 2014年
- 词语语义相似度计算在信息检索、文本聚类、语义消歧等方面有着广泛的应用。基于《知网》提出一种词语语义相似度算法。设计一种义原分类,将义原分为第一基本义原、其他基本义原和间接义原3类。与以往义项相似度计算方法不同,根据不同类义原对义项相似度影响的大小,分别使用不同的义原相似度计算方法进行义项相似度的计算。利用词语之间第一基本义原相似度最高的义项组合进行词语语义相似度计算,剔除相似度较低的组合对词语语义相似度结果的影响。实验结果表明,该算法能有效提高运算效率和精确度。
- 王小林王东杨思春邰伟鹏郑啸
- 基于知网的新词语相似度算法研究被引量:11
- 2015年
- 基于"知网"提出了一种新的词语相似度计算方法。在概念层次上,引入义原类相似度的概念及计算规则,结合词语概念中主要义原类限制次要义原类和变系数法对各义原类加权计算,求得概念相似度;在词语层次上,引入词性相似度的概念,取不同词性的最大值作为词语相似度。实验结果表明,与已有方法相比,该方法有效提高了词语相似度的精确度和计算效率。
- 王小林杨林王东
- 关键词:知网词语相似度语义距离