孙晓燕
- 作品数:3 被引量:18H指数:2
- 供职机构:山东师范大学信息科学与工程学院更多>>
- 发文基金:山东省教育厅科技计划山东省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 用于不均衡数据集分类的KNN算法被引量:9
- 2011年
- 针对KNN在处理不均衡数据集时,少数类分类精度不高的问题,提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本,若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离,则认为是有效样本,并把这类样本加入到下轮产生少数类的过程中。在UCI数据集上进行测试,实验结果表明,该方法与KNN算法中应用随机抽样相比,在提高少数类的分类精度方面取得了较好的效果。
- 孙晓燕张化祥计华
- 关键词:不均衡数据集过抽样交叉算子
- 基于AdaBoost的欠抽样集成学习算法被引量:2
- 2011年
- 不平衡数据集分类中,采用欠抽样方法容易忽略多数类中部分有用信息,为此提出一种基于AdaBoost的欠抽样集成学习算法U-Ensemble。该方法首先使用AdaBoost算法对数据集预处理,得到各样例权重。训练基分类器时,针对多数类数据不再采用bootstrap抽样方法,而是分别随机选择部分权重较大的样例与部分权重较小的样例,使两部分样例个数与少数类样例个数相同,并组成Bagging成员分类器的训练数据。实验结果证明了算法的有效性。
- 孙晓燕张化祥计华
- 关键词:不平衡数据集ADABOOST算法
- 基于最近邻原则的半监督聚类算法被引量:7
- 2011年
- 基于最近邻原则的半监督聚类算法是以基于最近邻的聚类中心求解算法为基础的。在基于最近邻的聚类中心求解算法中,用相似度矩阵记录数据点间的相似程度,由目标函数最小值求得聚类的类中心点。在基于最近邻原则的半监督聚类算法中,根据约束信息来调整相似度矩阵G,数据点间相似度的变化引起了数据点间加权欧式距离的变化,由此更新加权欧式距离矩阵M,最后执行聚类中心求解算法完成聚类。大量实验结果表明,该算法能获得较好的聚类结果。
- 计华张化祥孙晓燕
- 关键词:半监督聚类约束信息