付玲玲
- 作品数:3 被引量:6H指数:1
- 供职机构:重庆大学计算机学院更多>>
- 发文基金:重庆市科委基金中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 文本分类中基于概念映射的二次特征降维方法被引量:1
- 2012年
- 对高维特征集的降维是文本分类的一个主要问题。在分析现有特征降维方法的基础上,借助《知网》提出一种新的二次降维方法:采用传统的特征选择方法提取一个候选特征集合;利用《知网》对候选集合中的特征项进行概念映射,把大量底层分散的原始特征项替换成少量的高层概念进行第二次特征降维。实验表明,这种方法可以在减少文本语义信息丢失的前提下,有效地降低特征空间维数,提升文本分类的准确度。
- 熊忠阳付玲玲张玉芳
- 关键词:文本分类特征降维概念映射《知网》
- 结合本体HowNet的中文文本分类研究
- 互联网技术和信息技术的迅速发展不但使得网络上的电子文本数量急剧增加而且改变了人们获取信息的方式。如何对这样数量庞大的电子文本进行有效的组织管理以方便人们快速、准确而全面地获取潜在的、有价值的知识和信息是信息处理技术的一项...
- 付玲玲
- 关键词:文本分类本体HOWNET
- 文献传递
- 结合语义的特征选择方法被引量:5
- 2010年
- 传统的基于词频统计的特征选择方法忽略了特征项本身的语义信息,特征项之间存在冗余使得维数有限的特征空间无法容纳更多的对分类有用的特征项。为此,利用《知网》(HowNet)的中英双语知识词典构建"概念—领域"表,对每个词语查询该表,如果在表中,则把该词语映射到"领域";否则保留原词。这样不仅可以将较低层概念泛化到较高层概念,还能在一定程度上消除特征项之间的冗余,而且从语义上加强它对所在"领域"的分类贡献度。分别应用信息增益和χ2统计利用该方法进行文本分类实验,结果表明该方法可以有效地提高分类准确率。
- 熊忠阳付玲玲张玉芳蒋健
- 关键词:文本分类语义知网