何新宇 作品数:4 被引量:7 H指数:2 供职机构: 中山大学资讯管理学院 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
文档相似矩阵在提高KNN分类效率中的应用 被引量:2 2014年 针对传统KNN分类算法在样本数量大、维度高的情况下相似度计算量大的问题,提出了基于相似矩阵的改进KNN分类算法。该算法通过计算样本两两之间的相似度,建立相似矩阵加速KNN算法中寻找K近邻;以搜狗自然语言实验室的文本分类语料库中的新闻文档作为实验对象,采用宏平均F测度值作为分类效果评价标准,用改进KNN方法和传统KNN方法进行对比实验。实验结果表明:通过调节参数,本方法能在不损失精度的情况下减少寻找K近邻时相似度计算的次数。 路永和 何新宇关键词:文本分类 相似矩阵 基于维度索引表的改进KNN分类算法 被引量:3 2014年 阐述传统KNN分类器的基本原理和其存在的不足之处;针对样本数量增大,维度上升时KNN算法中相似度计算量急剧增大的问题,提出基于维度索引表的改进KNN分类算法;该算法通过建立特征项维度索引表加速KNN算法中寻找K近邻;以搜狗自然语言实验室的文本分类语料库中的新闻文档作为实验对象,采用宏平均F测度值作为分类效果评价标准,用改进KNN方法和传统KNN方法进行对比实验。实验结果表明:该方法能大幅度减少寻找K近邻时相似度计算的次数。 路永和 何新宇关键词:文本分类 向量空间模型 基于中心词耦合度和PageRank的文本自动摘录算法 被引量:1 2013年 阐述了自动文摘和PageRank算法的概念和步骤,并介绍了部分基于图排序的自动摘录算法;提出了一种基于中心词耦合度和PageRank的图排序文本自动摘录算法,通过文本特征筛选技术提取出文档中的中心词并定义了句子之间的中心词耦合度函数,再将中心词耦合度应用在PageRank算法中,最后通过句子的PageRank值来生成摘录;以SUMMAC的Computation and Language语料库中的新闻文档作为实验对象,采用ROUGE作为摘录效果评价工具进行实验。实验结果表明,本文算法跟单纯PageRank摘要算法相比摘录效果和摘录效率都有所提升。 何新宇关键词:中心词 PAGERANK 耦合度 锐化高斯模板在文本特征项权重调整方法中的应用 被引量:1 2012年 阐述二维高斯模板和锐化高斯模板的构建过程及其对图像的锐化处理技术,提出文本特征项权重调整方法的主要思想,并以此为依据,论述基于锐化高斯模板的文本特征项权重调整方法。以搜狗自然语言实验室的文本分类语料库中的新闻文档作为实验对象,采用宏平均F测度值作为分类效果评价标准,采用中心点法和K-最近邻方法(KNN)作为分类器的分类算法进行实验。实验结果表明:在KNN分类法下,基于锐化高斯模板的文本向量模型权重调整方法起到提升分类效果的作用,但对中心点法的影响并不大。 路永和 何新宇关键词:文本分类