张稳
- 作品数:1 被引量:14H指数:1
- 供职机构:长沙理工大学计算机与通信工程学院更多>>
- 发文基金:国家自然科学基金湖南省科技计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于Spark框架的并行FP-Growth挖掘算法被引量:14
- 2017年
- Apriori和FP-Growth算法是频繁模式挖掘中的经典算法,由于Apriori存在更多缺陷,因此FP-Growth是单机计算环境下比较高效的算法。然而,对于非并行计算在大数据时代遇到的瓶颈,提出一种基于事务中项间联通权重矩阵的负载平衡并行频繁模式增长算法CWBPFP。算法在Spark框架上实现并行计算,数据分组时利用负载均衡策略,存入分组的数据是相应频繁项的编码。每个工作节点将分组数据中每一个事物中项的联通信息存入一个下三角联通权重矩阵中,使用被约束子树来加快每个工作节点挖掘频繁模式时创建条件FP-tree的速度,再用联通权重矩阵避免每次挖掘分组中频繁模式时对条件模式基的第一次扫描。由于联通权重矩阵和被约束子树的结合应用于每一个工作节点的FP-tree挖掘过程,因此提升了并行挖掘FP-tree性能。通过实验表明,所提出的并行算法对大的数据有较高性能和可扩展性。
- 张稳罗可
- 关键词:数据挖掘关联规则FP-GROWTH大数据并行计算SPARK