熊冰妍
- 作品数:4 被引量:48H指数:2
- 供职机构:重庆邮电大学更多>>
- 发文基金:重庆市自然科学基金国家自然科学基金重庆市教育委员会科学技术研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于样本权重的不平衡数据欠抽样方法被引量:43
- 2016年
- 现实世界中广泛存在不平衡数据,其分类问题是数据挖掘和机器学习的一个研究热点.欠抽样是处理不平衡数据集的一种常用方法,其主要思想是选取多数类样本中的一个子集,使数据集的样本分布达到平衡,但其容易忽略多数类中部分有用信息.为此提出了一种基于样本权重的欠抽样方法KAcBag(K-means AdaCost bagging),该方法引入了样本权重来反映样本所处的区域,首先根据各类样本的数量初始化各样本权重,并通过多次聚类对各个样本的权重进行修改,权重小的多数类样本即处于多数类的中心区域;然后按权重大小对多数类样本进行欠抽样,使位于中心区域的样本较容易被抽中,并与所有少数类样本组成bagging成员分类器的训练数据,得到若干个决策树子分类器;最后根据各子分类器的正确率进行加权投票生成预测模型.对19组UCI数据集和某电信运营商客户换机数据进行了测试实验,实验结果表明:KAcBag方法使抽样所得的样本具有较强的代表性,能有效提高少数类的分类性能并缩小问题规模.
- 熊冰妍王国胤邓维斌
- 关键词:不平衡数据聚类
- 不平衡数据分类方法及其在手机换机预测中的应用
- 现实世界中广泛存在不平衡数据,其分类问题是数据挖掘领域的一个研究热点。传统的分类算法以整体预测精度为训练目标,导致多数类预测精度高,少数类预测精度差。而在手机换机预测这一实际应用中,少数类样本即换机用户的分类正确率更为重...
- 熊冰妍
- 关键词:不平衡数据决策树
- 文献传递
- 一种改进C4.5决策树算法下的不平衡数据抽样方法
- 本发明涉及一种改进C4.5决策树算法下的不平衡数据抽样方法,首先根据各类样本数量确定各个样本的初始权重,然后每轮通过改进C4.5决策树算法的训练结果对各样本的权重进行修改,改进的C4.5算法的分裂标准兼顾信息增益率和误分...
- 邓维斌刘进熊冰妍何菲菲
- 文献传递
- 分级式代价敏感决策树及其在手机换机预测中的应用被引量:5
- 2015年
- 在手机用户数据集中,非换机用户和换机用户存在着严重的不平衡,传统的数据挖掘方法在处理不平衡数据时追求整体正确率,导致换机用户的预测精度较低。针对这一问题,提出一种基于分级式代价敏感决策树的换机预测方法。首先利用粗糙集对原始数据集进行属性约简并计算各属性的重要度,然后根据属性重要度对属性分块建立分级结构,最后以基尼系数和误分代价为分裂标准构建代价敏感决策树,作为每一级的基分类器。对某电信运营商客户数据进行3个仿真试验,结果表明:分级式代价敏感决策树在原始的不平衡用户数据集及欠抽样处理后的平衡用户数据集上都有较好的结果。
- 熊冰妍王国胤邓维斌
- 关键词:决策树不平衡数据