陈爱东 作品数:6 被引量:24 H指数:2 供职机构: 东华大学 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 理学 更多>>
满足均匀分布的不确定数据关联规则挖掘算法 被引量:18 2013年 云计算为大数据提供了展示和共享的平台.为了防止隐私泄露,这些数据中往往包含人为添加的不确定因素,如何挖掘这些不确定数据是大数据共享亟待解决的问题.在用于共享的大数据中,不确定数据通过对精确数据的泛化处理来实现,具有均匀分布特性,这一特性不利于精确查询,但可为关联规则的挖掘提供便利条件.首先,依据泛化值之间可能的相交或包含关系,将泛化值进行分层聚类,为了保存与不确定数据集挖掘相关的重要信息,给出了构建不确定频繁模式树的算法,在此基础上,提出了频繁项集挖掘子算法(data mining algorithm for uncertain frequent item-sets,UFI-DM)和关联规则生成子算法(algorithm for generating association rules,GAR),分别用于挖掘频繁项集和生成关联规则,最后,通过理论分析和实验比对,论证了算法的可行性和有效性. 陈爱东 刘国华 费凡 周宇 万小妹 貟慧关键词:数据挖掘 关联规则 频繁项集 均匀分布下不确定数据的关联规则变粒度查询 被引量:2 2013年 云计算为大数据的关联规则挖掘与查询提供了平台。为防止隐私泄漏,大数据中往往包含人为添加的不确定因素,如何使用户对不确定数据的关联规则挖掘结果查询透明化是大数据挖掘结果查询亟待解决的问题。在用于共享的大数据中,不确定数据通过对精确数据的泛化处理来实现,具有均匀分布特性,这一特性不利于精确查询,但可为关联规则挖掘结果集的变粒度查询提供便利。首先,通过UFIDM算法进行挖掘并构建关联规则库,为提高查询效率,对泛化标识符和敏感属性分别构建Hilbert packed R树索引。在此基础上,提出了泛化值粒度转换方法和U-ARS查询算法。最后,通过理论分析和实验比对,展示了算法的可行性和有效性。 陈爱东 刘国华 肖瑞 万小妹 石丹妮关键词:大数据 关联规则 K-匿名数据集的挖掘算法研究 随着大数据时代的到来,Internet时时刻刻都在释放出海量数据。信息的日积月累,无论是围绕着企业的商业决策,还是个人的生活消费习惯等信息,都变成了以各种各样形式存储的数据。大数据的背后隐藏着大量政治和经济利益的同时,也... 陈爱东关键词:关联规则 数据挖掘 文献传递 满足均匀分布的不确定数据关联规则挖掘算法 算为大数据提供了展示和共享的平台为了防止隐私泄露,这些数据中往往包含人为添加的不确定因素,挖掘这些不确定数据是大数据共享亟待解决的问题.在用于共享的大数据中,不确定数据通过对精确数据的泛化处理来实现,具有均匀分布特性,这... 陈爱东 刘国华 费凡 周宇 万小妹 貟慧关键词:不确定数据 精度控制 不确定时间序列的统计降维方法 被引量:3 2014年 由于不确定时间序列的长度很长,并且每个采样点的取值具有不确定性,导致了维度灾难和庞大的可能世界集,给不确定时间序列相似性匹配带来了巨大的困难,因此对不确定时间序列降维是实现对其方便存储、快速查询和相似性匹配的首要任务。不确定时间序列普遍采用小波变换的降维方法,但是该方法没有考虑到采样点之间的相关性。为解决该问题,提出一种基于概率统计和数据相关性的降维方法,该方法将不确定时间序列分为概率维度和时间维度,并分别对两维度进行降维。在时间维度,根据采样点之间的相关性,使用某个采样点代表后续相关度高的采样点;在概率维度,使用大概率点表示相邻的小概率点。实验效果表明:使用该方法对不确定时间序列进行降维后,降维序列可以保持原序列的变化趋势,压缩程度显著,并且可近似地恢复原序列。 肖瑞 刘国华 陈爱东 宋转关键词:时间序列 不确定性 降维 不确定时间序列的统计降维方法 由于不确定时间序列的长度很长,并且每个采样点的取值具有不确定性,导致了维度灾难和庞大的可能世界集,给不确定时间序列相似性匹配带来了巨大的困难,因此对不确定时间序列降维是实现对其方便存储、快速查询和相似性匹配的首要任务.不... 肖瑞 刘国华 陈爱东 宋转关键词:统计学 时间序列 不确定性 降维方法 文献传递