尹明飞
- 作品数:4 被引量:36H指数:2
- 供职机构:辽宁师范大学计算机与信息技术学院更多>>
- 发文基金:辽宁省科学技术计划项目辽宁省教育厅高等学校科学研究项目教育部留学回国人员科研启动基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于组合特征的动态垃圾博客过滤算法被引量:2
- 2012年
- 近几年,垃圾博客过滤成为国际上新的热点研究领域。现有的过滤算法大多基于词频特征分类,特征冗余并缺乏关联性。为了解决此问题,提出一种基于组合特征的动态垃圾博客过滤算法(CFDSD),该算法采用作者属性和自相似特征来解决特征冗余和关联性低的问题,并应用贝叶斯分类算法优化词频特征分类。实验表明,该算法能适应博客随时间变化而动态更新的特点,同时提高了过滤效率。
- 任永功尹明飞杨荣杰
- 关键词:贝叶斯分类
- 垃圾博客检测及相关技术的研究
- 近年来随着internet技术的发展,博客(Web blog)通过为作者和读者之间提供交互式交流平台和动态更新的社会网络而成为极受欢迎的一种新媒体的社会沟通机制。据调查科学研究、统计调查、公共建设、教育、社会福利等研究领...
- 尹明飞
- 关键词:期望交叉熵
- 文献传递
- 基于信息增益的文本特征选择方法被引量:31
- 2012年
- 在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,以降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对比实验表明,选取的特征具有更好的分类性能。
- 任永功杨荣杰尹明飞马名威
- 关键词:文本分类不平衡数据集
- 基于特征权重与词间相关性的文本特征选择算法被引量:3
- 2012年
- 传统的ReliefF算法使用二值法不能体现离散特征差异大小,且不能去除冗余特征。针对这种情况提出了mRMR-ReliefF特征选择算法。该算法利用概率弥补特征差异度量上的不足,提出新的差异函数。此函数使提取出的特征更能体现文本的类内相关性和类间差异性。该算法还结合了词间相关性。词间相关性在考虑选择和类别相关性大的特征词的同时还考虑了特征冗余的消除。通过三种算法的对比实验,表明该算法为文本分类提供了更有效的特征子集。
- 任永功杨荣杰尹明飞
- 关键词:RELIEFF算法文本分类