李柯
- 作品数:1 被引量:7H指数:1
- 供职机构:杭州电子科技大学计算机学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 结合汉明距离及语义的文本相似度量方法研究被引量:7
- 2016年
- 利用VSM模型的TF-IDF算法对文本进行相似度量是文本信息处理领域的常用做法,但是该方法涉及到高维稀疏矩阵的处理,计算效率不高,不利于处理大规模文本,同时该方法忽略词项语义信息对文本的影响.另有一种基于语义的相似度算法可克服前一种方法的语义缺点,但需要知识库的支持,其建立过程的繁杂使此类算法理论多过实践.为此提出一种新的文本相似度计算方法,方法综合TF-IDF算法以及HOWNET的语义信息,并利用汉明距离计算文本相似度,避开对高维稀疏矩阵的直接处理.实验结果表明,与常用方法相比较,处理速度更快、性能更好,适用于大规模文本处理.
- 胡维华鲍乾李柯
- 关键词:文本相似度向量空间模型语义汉明距离