李淋淋 作品数:8 被引量:66 H指数:6 供职机构: 曲阜师范大学信息科学与工程学院 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
基于聚类的动态推荐并行化算法研究 当前随着互联网和移动设备的迅速普及,引发数据量急剧增多。海量信息的增长导致了严重的信息过载,如何从大量的信息中快速地分析出用户的兴趣爱好,并主动为用户推荐感兴趣的信息则成为当前研究的热点问题。协同过滤推荐算法作为解决这个... 李淋淋关键词:信息检索 数据挖掘 聚类算法 程序语言 基于Spark的并行频繁模式挖掘算法 被引量:13 2016年 在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷,为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的k个模式得到最优阈值。然后根据该值删除预期不能成长为频繁的模式以降低计算规模,并利用弹性分布式数据集RDD完成统计项集支持度计数、候选项集生成的工作。实验分析表明相比于传统的频繁模式挖掘算法,该算法具有更高的效率以及可扩展性。 曹博 倪建成 李淋淋 于苹苹 姚彬修关键词:频繁模式挖掘 TOP-K 模式树 并行计算 基于Spark框架的并行聚类算法 被引量:6 2017年 针对传统K-means算法在处理海量数据时存在距离计算瓶颈及因迭代计算次数增加导致内存不足的问题,提出了一种基于Spark框架的SBTICK-means(Spark Based Triangle Inequality Canopy-K-means)并行聚类算法。为了更好地解决K值选取的盲目性和随机性的问题,该算法利用Canopy进行预处理得到初始聚类中心点和K值;在K-means迭代计算过程中进一步利用距离三角不等式定理减少冗余计算、加快聚类速度,结合Spark框架实现算法的并行化,充分利用Spark的内存计算优势提高数据的处理速度,缩减算法的整体运行时间。实验结果表明,SBTICK-means算法在保证准确率的同时大大提高了聚类效率,与传统的K-means算法、Canopy-K-means算法和基于MapReduce框架下的该算法相比,在加速比、扩展比以及运行速率上都有一定的提高,从而更适合应用于海量数据的聚类研究。 李淋淋 倪建成 曹博 于苹苹 姚彬修关键词:K-MEANS SPARK HADOOP MAP REDUCE 基于多源信息相似度的微博用户推荐算法 被引量:12 2017年 针对传统的协同过滤(CF)推荐算法中存在的数据稀疏性和推荐准确率不高的问题,提出了基于多源信息相似度的微博用户推荐算法(MISUR)。首先,根据微博用户的标签信息运用K最近邻(KNN)算法对用户进行分类;然后,对得到的每个类中的用户分别计算其多源信息(微博内容、交互关系和社交信息)的相似度;其次,引入时间权重和丰富度权重计算多源信息的总相似度,并根据其大小进行TOP-N用户推荐;最后,在并行计算框架Spark上进行实验。实验结果表明,MISUR算法与CF算法和基于多社交行为的微博好友推荐算法(MBFR)相比,在准确率、召回率和效率方面都有较大幅度的提升,说明了MISUR算法的有效性。 姚彬修 倪建成 于苹苹 李淋淋 曹博关键词:多源信息 稀疏性 相似度 一种基于Canopy和粗糙集的CRS-KNN文本分类算法 被引量:9 2017年 针对KNN算法的分类效率随着训练集规模和特征维数的增加而逐渐降低的问题,提出了一种基于Canopy和粗糙集的CRS-KNN(Canopy Rough Set-KNN)文本分类算法。算法首先将待处理的文本数据通过Canopy进行聚类,然后对得到的每个类簇运用粗糙集理论进行上、下近似分割,对于分割得到的下近似区域无需再进行分类,而通过上、下近似作差所得的边界区域数据需要通过KNN算法确定其最终的类别。实验结果表明,该算法降低了KNN算法的数据计算规模,提高了分类效率。同时与传统的KNN算法和基于聚类改进的KNN文本分类算法相比,准确率、召回率和F_1值都得到了一定的提高。 姚彬修 倪建成 于苹苹 曹博 李淋淋关键词:粗糙集 文本分类 基于聚类和Spark框架的加权Slope One算法 被引量:8 2017年 针对传统Slope One算法在相似性计算时未考虑项目属性信息和时间因素对项目相似性计算的影响,以及推荐在当前大数据背景下面临的计算复杂度高、处理速度慢的问题,提出了一种基于聚类和Spark框架的加权Slope One算法。首先,将时间权重加入到传统的项目评分相似性计算中,并引入项目属性相似性生成项目综合相似度;然后,结合Canopy-K-means聚类算法生成最近邻居集;最后,利用Spark计算框架对数据进行分区迭代计算,实现该算法的并行化。实验结果表明,基于Spark框架的改进算法与传统Slope One算法、基于用户相似性的加权Slope One算法相比,评分预测准确性更高,较Hadoop平台下的运行效率平均可提高3.5~5倍,更适合应用于大规模数据集的推荐。 李淋淋 倪建成 于苹苹 姚彬修 曹博关键词:SLOPE 聚类 SPARK 基于Spark框架的高效KNN中文文本分类算法 被引量:19 2016年 针对K-最近邻(KNN)分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题,提出了一种基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-medoids聚类算法对训练集进行两次裁剪;然后在分类过程中迭代K值获得分类结果,并在计算过程中结合Spark计算框架对数据进行分区迭代实现并行化。实验结果表明,在不同数据集中传统尽最近邻算法、基于K-medoids的群最近邻算法所耗费时间是所提Spark框架下的B最近邻算法的3.92-31.90倍,所提算法具有较高的计算效率,相较于Hadoop平台有较好的加速比,可有效地对大数据进行分类处理。 于苹苹 倪建成 姚彬修 李淋淋 曹博关键词:K-最近邻 聚类 SPARK 并行化计算 新课改以来中学语文多元解读的分析和探讨 中学语文阅读教学的理念,从教师机械讲学生被动听,革新到如今的教师与学生互为主体共同学习,这一变化让阅读教学愈发散发活力。尤其是2001年语文课程标准改革(以下简称新课改)后,多元解读更是以其不可掩盖之优势渐入大众视野,随... 李淋淋关键词:中学语文 阅读教学 教学策略