CART(Classification And Regression Tree,分类回归树)是一种准确率和效率都较高的数据挖掘算法,它支持离散型和连续型的数据分类,但无法适用于对加密的隐私云数据进行分类.因此提出PPCART(Privacy-preserving CART,隐私保护的分类回归树),该算法利用同态加密特性对CART算法做了相应的改善,使之在保持CART原有准确率和相对较好执行效率的情况下能分类加密云数据,避免了在半诚实模型下的分类过程中真实数据的泄露.经过安全分析和实验测试表明,PPCART可显著提高传统CART算法的安全性,且具有接近于它的执行时间.
AdaBoost算法是一种典型的集成学习框架,通过线性组合若干个弱分类器来构造成强学习器,其分类精度远高于单个弱分类器,具有很好的泛化误差和训练误差。然而AdaBoost算法不能精简输出模型的弱分类器,因而不具备良好的可解释性。本文将遗传算法引入AdaBoost算法模型,提出了一种限制输出模型规模的集成进化分类算法(Ensemble evolve classification algorithm for controlling the size of final model,ECSM)。通过基因操作和评价函数能够在AdaBoost迭代框架下强制保留物种样本的多样性,并留下更好的分类器。实验结果表明,本文提出的算法与经典的AdaBoost算法相比,在基本保持分类精度的前提下,大大减少了分类器数量。