国家教育部博士点基金(20040286009)
- 作品数:27 被引量:284H指数:11
- 相关作者:孙志挥倪巍伟陆介平陈耿张柏礼更多>>
- 相关机构:东南大学南京审计大学淮海工学院更多>>
- 发文基金:国家教育部博士点基金国家自然科学基金江苏省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法被引量:31
- 2005年
- 目前已提出了许多快速的关联规则挖掘算法,实际上用户只关心部分关联规则,如他们仅想知道包含指定项目的规则.当这些约束被用于数据预处理或将它结合到数据挖掘算法中去时,可以显著减少算法的执行时间.为此,考虑了一类包含或不包含某些项目的布尔表达式约束条件,提出了一种快速的基于FPtree的约束最大频繁项目集挖掘算法CMFIMA,并对其更新问题进行了研究,提出了一种增量式更新约束最大频繁项目集挖掘算法CMFIUA.
- 宋余庆朱玉全孙志挥杨鹤标
- 关键词:关联规则项约束最大频繁项目集频繁模式树增量式更新
- k-LDCHD——高维空间k邻域局部密度聚类算法被引量:26
- 2005年
- 聚类是数据挖掘领域的一项重要课题,高维空间聚类以数据分布稀疏、噪声数据多、“差距趋零现象”而成为难点.在分析现有聚类算法不足的基础上,引入k邻域点集、k邻域半径等概念,提出一种高维空间单参数k邻域局部密度聚类算法kPCLDHD;为了提高算法的效率,进一步定义了参考距离等概念,并采用“双参考数据点”对数据集中的数据对象进行预处理,以减少扫描数据集的开销,提出kPCLDHD的优化算法kLDCHD.理论分析和实验结果表明,算法可以有效解决高维空间聚类问题,算法是有效可行的.
- 倪巍伟孙志挥陆介平
- 关键词:高维空间
- 分形植物形态的模拟算法研究被引量:5
- 2008年
- 随着分形学研究的深入,植物形态的模拟已成为一个研究热点。在借鉴前人研究的L系统,IFS经典算法的基础上,将二者结合互补并改进了L系统算法,产生了一种新的算法,能够生成更真实的植物形态;在总结分形演化DLA算法的基础上,在演化区域内加入一些干预信息,能够得到具有装饰性的艺术效果。
- 刘茗李存华
- 关键词:L-系统植物模拟分形迭代函数系统
- 基于数据空间网格划分的PK-树索引结构被引量:1
- 2005年
- 在大规模高维数据挖掘研究中,数据存储与索引方法的有效性是决定算法时空效率的重要因素。将数据空间网格划分策略与高效率的树型索引结构结合起来,可以充分发挥两者在数据组织上的综合优势,将复杂问题转换为结构化的简单重复问题。在统一的框架下给出了各种数据空间网格划分的定义,讨论了两种适用于实现网格化数据索引的R-树和PK-树索引结构。试验结果表明,PK-树在数据存储和索引上具有更高的效率,与网格化数据组织方法结合起来,对于降低大规模高维数据分析问题的时空复杂度具有重要意义。
- 胡云孙志挥李存华
- 关键词:网格划分索引
- 分布式数据挖掘中的最优K相异性取样技术被引量:5
- 2008年
- 为了弥补基于集中式处理的分布式数据挖掘方法的不足,有效地实施分布式数据挖掘(DDM)任务,需要一种能从分布式数据源中获取多样化代表性取样集的技术.提出了一种新的适用于分布式数据挖掘环境的数据取样算法(OptiSim-DDM方法),算法核心是基于最优K相异性进行数据选择,采用移动Agent技术和扩展的最优K相异性数据多样化代表性子集选择方法,能在各分布式数据场地中轮转选择出全局数据集的多样化代表性取样集.该方法通过降低所挖掘的数据集的数据规模来降低数据挖掘算法的时空复杂度,降低网络通讯代价,提高数据挖掘的执行效率,适合于各场地数据是互相关联和互相依赖的分布式数据挖掘任务.实验结果证实该方法是可行、有效的.
- 胡文瑜孙志挥张柏礼
- 关键词:分布式数据挖掘AGENT
- 基于邻域属性熵的隐私保护数据干扰方法被引量:17
- 2009年
- 隐私保护微数据发布是数据隐私保护研究的一个热点,数据干扰是隐私保护微数据发布采用的一种有效解决方法.针对隐私保护聚类问题,提出一种隐私保护数据干扰方法NETPA,NETPA干扰方法通过对数据点及邻域点集的分析,借助信息论中熵的理论,提出邻域属性熵和邻域主属性等概念,对原始数据中数据点的邻域主属性值用其k邻域点集内数据点在该属性的均值进行干扰替换,在较好地维持原始数据k邻域关系的情况下达到保护原始数据隐私不泄露的目的.理论分析表明,NETPA干扰方法具有良好地避免隐私泄露的效果,同时可以较好地维持原始数据的聚类模式.实验采用DBSCAN和k-LDCHD聚类算法对干扰前后的数据进行聚类分析比对.实验结果表明,干扰前后数据聚类结果具有较高的相似度,算法是有效可行的.
- 倪巍伟徐立臻崇志宏吴英杰刘腾腾孙志挥
- 关键词:隐私保护聚类挖掘
- 高维数据流聚类及其演化分析研究被引量:15
- 2006年
- 基于数据流数据的聚类分析算法已成为研究的热点.提出一种基于子空间的高维数据流聚类及演化分析算法CAStream,该算法对数据空间进行网格化,采用近似的方法记录网格单元的统计信息,并将潜在密集网格单元快照以改进的金字塔时间结构进行存储,最后采用深度优先搜索方法进行聚类及其演化分析.CAStream能够有效处理高维数据流,并能发现任意形状分布的聚类.基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性.
- 周晓云孙志挥张柏礼杨宜东
- 关键词:数据流聚类分析
- 高维数据流子空间聚类发现及维护算法被引量:24
- 2006年
- 近年来由于数据流应用的大量涌现,基于数据流模型的数据挖掘算法研究已成为重要的应用前沿课题.提出一种基于Hoeffding界的高维数据流的子空间聚类发现及维护算法——SHStream.算法将数据流分段(分段长度由Hoeffding界确定),在数据分段上进行子空间聚类,通过迭代逐步得到满足聚类精度要求的聚类结果,同时针对数据流的动态性,算法对聚类结果进行调整和维护.算法可以有效地处理高维数据流和对任意形状分布数据的聚类问题.基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性.
- 周晓云孙志挥张柏礼杨宜东
- 关键词:数据流聚类算法子空间聚类
- 一种基于单调递减阈值函数的高维数据集聚类算法
- 1引言聚类分析是数据挖掘领域中的一项重要的研究课题,它既可以作为一个单独的工具以发现数据库中数据分布的一些深入的信息,也可以作为其他数据挖掘分析算法的一个预处理步骤。目前,高维数据集的高效聚类已成为聚类分析算法的巨大挑战...
- 周晓云孙志挥张柏礼胡文瑜
- 文献传递
- k-APPRP:一种基于划分的增量数据重发布隐私保护k-匿名算法被引量:8
- 2009年
- 针对现实数据集动态增加和多次发布的隐私保护需求,本文在分析增量更新数据匿名若干概化方式基础上,提出了防止数据重发布过程中发生隐私泄漏的单调概化原则,并利用该原则,设计一个基于划分的增量数据重发布k-匿名算法k-APPRP.理论分析和实验结果表明,算法k-APPRP可安全且高效地实现连续增长数据集重发布的隐私保护,同时保证发布数据具有较高的数据质量.
- 吴英杰倪巍伟张柏礼闫雷鸣孙志挥
- 关键词:隐私保护K-匿名概化