您的位置: 专家智库 > >

张晓楠

作品数:1 被引量:9H指数:1
供职机构:北京科技大学东凌经济管理学院更多>>
发文基金:中央高校基本科研业务费专项资金国家教育部博士点基金国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇云计算
  • 1篇文本聚类
  • 1篇相似度
  • 1篇聚类
  • 1篇MAPRED...
  • 1篇并行化

机构

  • 1篇北京科技大学

作者

  • 1篇武森
  • 1篇张晓楠
  • 1篇杨杰
  • 1篇冯小东

传媒

  • 1篇北京科技大学...

年份

  • 1篇2014
1 条 记 录,以下是 1-1
排序方式:
基于MapReduce的大规模文本聚类并行化被引量:9
2014年
建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性.
武森冯小东杨杰张晓楠
关键词:云计算聚类相似度
共1页<1>
聚类工具0