杨宜东 作品数:14 被引量:133 H指数:7 供职机构: 东南大学计算机科学与工程学院 更多>> 发文基金: 国家自然科学基金 国家教育部博士点基金 更多>> 相关领域: 自动化与计算机技术 更多>>
数据流多维直方图的动态维护 数据流(data streams)作为一类重要的数据来源,受到越来越多的关注,基于数据流模型的管理系统和数据挖掘算法等已成为重要的研究课题.引入直方图作为一种数据流上数据分布的近似机制,研究了数据流上多维直方图的动态维护... 杨宜东 孙志挥 张柏礼关键词:数据流 多维直方图 文献传递 数据流中离群和变化发现研究 数据挖掘是从数据库中识别出有效的、新颖的、潜在有用的并最终可理解模式的非平凡过程,其在功能上的健壮性和应用领域的广泛性已被研究者一致认同.十多年来,众多学者围绕数据挖掘这一主题开展深入而系统的研究与探索工作,并已出现大量... 杨宜东关键词:知识发现 数据挖掘 数据流 数据流挖掘 离群点检测 文献传递 密度相关的数据流偏倚抽样 被引量:1 2006年 利用数据空间动态网格划分的方法,对数据流空间的数据分布密度情况进行模拟,并在此基础上提出了一种基于密度的偏倚抽样方法.为验证该抽样方法的有效性,将其应用到数据流中的聚类挖掘,实验结果表明该算法具有良好的适用性和有效性. 杨宜东 孙志挥关键词:数据流 聚类 高维数据流聚类及其演化分析研究 被引量:15 2006年 基于数据流数据的聚类分析算法已成为研究的热点.提出一种基于子空间的高维数据流聚类及演化分析算法CAStream,该算法对数据空间进行网格化,采用近似的方法记录网格单元的统计信息,并将潜在密集网格单元快照以改进的金字塔时间结构进行存储,最后采用深度优先搜索方法进行聚类及其演化分析.CAStream能够有效处理高维数据流,并能发现任意形状分布的聚类.基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性. 周晓云 孙志挥 张柏礼 杨宜东关键词:数据流 聚类分析 高维数据流子空间聚类发现及维护算法 被引量:24 2006年 近年来由于数据流应用的大量涌现,基于数据流模型的数据挖掘算法研究已成为重要的应用前沿课题.提出一种基于Hoeffding界的高维数据流的子空间聚类发现及维护算法——SHStream.算法将数据流分段(分段长度由Hoeffding界确定),在数据分段上进行子空间聚类,通过迭代逐步得到满足聚类精度要求的聚类结果,同时针对数据流的动态性,算法对聚类结果进行调整和维护.算法可以有效地处理高维数据流和对任意形状分布数据的聚类问题.基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性. 周晓云 孙志挥 张柏礼 杨宜东关键词:数据流 聚类算法 子空间聚类 基于时间序列的电力系统故障诊断规则挖掘 被引量:15 2003年 介绍了利用Rough集理论进行数据挖掘技术在电力系统故障诊断中的应用。针对电力系统中与时间序列相关的数据集,提出了基于Rough集的时间序列相关的分类规则挖掘算法。利用该算法得到的分类规则,可以较好地反映条件属性集随时间动态变化对系统状态的影响。 杨宜东 孙志挥关键词:粗糙集 时间序列 故障诊断 静态物化视图的动态Cache优化算法 被引量:5 2006年 针对静态物化视图集动态适应能力的不足,提出一种动态cache优化算法DCO(dynamiccacheoptimization).它在保持静态算法获取最优物化集能力的基础上,将cache机制直观、快速的动态特性结合进来,以提高数据仓库的动态自适应性能.在cache机制具体实现中提出了一种新颖的空间申请方法,可以充分利用系统剩余空间提高查询响应性能.实验结果在表明算法有效、可行的同时,也显示出该算法可以在一定程度上克服静态物化集存在的空间-性能饱和效应(space-performancesaturationeffect,简称SPSE),使通过增加物化空间进一步提高数据仓库对查询的响应速度成为可能. 张柏礼 孙志挥 周晓云 杨宜东 朱玉全关键词:数据仓库 物化视图 基于动态网格的数据流离群点快速检测算法 被引量:31 2006年 离群点检测问题作为数据挖掘的一个重要任务,在众多领域中得到了应用.近年来,基于数据流数据的挖掘算法研究受到越来越多的重视.为了解决数据流数据中的离群点检测问题,提出了一种基于数据空间动态网格划分的快速数据流离群点检测算法.算法利用动态网格对空间中的稠密和稀疏区域进行划分,过滤处于稠密区域的大量主体数据,有效地减少了算法所需考察的数据对象的规模.而对于稀疏区域中的候选离群点,采用近似方法计算其离群度,具有高离群度的数据作为离群点输出.在保证一定精确度的条件下,算法的运行效率可以得到大幅度提高.对模拟数据集和真实数据集的实验检测均验证了该算法具有良好的适用性和有效性. 杨宜东 孙志挥 朱玉全 杨明 张柏礼关键词:数据流 离群点检测 基于核密度估计的分布数据流离群点检测 被引量:19 2005年 基于数据流数据的挖掘算法研究受到了越来越多的重视.针对分布式数据流环境,提出基于核密度估计的分布数据流离群点检测算法.算法将各分布节点上的数据流作为全局数据流的子集,通过分布节点与中心节点的通信,维护基于全局数据流的分布密度估计.各分布节点基于该估计对其上的分布数据流进行离群点检测,从而得到基于全局数据流的离群点集合.对节点之间的交互以及离群点检测算法的细节进行了讨论.通过实验验证了算法的适用性和有效性. 杨宜东 孙志挥 张净关键词:离群点检测 核密度估计 高维类别属性数据流离群点快速检测算法 被引量:32 2007年 提出类别属性数据流数据离群度量——加权频繁模式离群因子(weighted frequent pattern outlier factor,简称WFPOF),并在此基础上给出一种快速数据流离群点检测算法FODFP-Stream(fast outlier detection for high dimensional categorical data streams based on frequent pattern).该算法通过动态发现和维护频繁模式来计算离群度,能够有效地处理高维类别属性数据流,并可进一步扩展到数值属性和混合属性数据流.对仿真数据集和真实数据集的实验检测均验证该算法具有良好的适用性和有效性. 周晓云 孙志挥 张柏礼 杨宜东关键词:数据流 离群点检测 高维