国家教育部博士点基金(20120006110037) 作品数:7 被引量:36 H指数:4 相关作者: 武森 卢丹 冯小东 刘露 杨杰 更多>> 相关机构: 北京科技大学 北京邮电大学 更多>> 发文基金: 国家教育部博士点基金 国家自然科学基金 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 理学 更多>>
分类属性数据的泛化中心聚类算法 2014年 针对采用经典划分思想的聚类算法以一个点来代表类的局限,提出一种基于泛化中心的分类属性数据聚类算法。该算法通过定义包含多个点的泛化中心来代表类,能够体现出类的数据分布特征,并进一步提出泛化中心距离及类间距离度量的新方法,给出泛化中心的确定方法及基于泛化中心进行对象到类分配的聚类策略,一般只需一次划分迭代就能得到最终聚类结果。将泛化中心算法应用到四个基准数据集,并与著名的划分聚类算法K-modes及其两种改进算法进行比较,结果表明泛化中心算法聚类正确率更高,迭代次数更少,是有效可行的。 武森 张桂琼 潘静 全敏关键词:聚类算法 基于大规模复杂网络社区发现的科研合著网络分析 被引量:4 2014年 针对基于极大团的社区发现算法,设计了适应大规模数据的MapReduce并行计算框架,提出了基于大规模复杂网络社区发现的科研合著网络分析算法,并用于对我国管理科学与工程领域2012年科研合著网络进行社区结构划分。实验结果表明,基于MapReduce的并行社区发现算法可在保证正确性的同时有效提高计算效率,适用于大规模复杂网络的社区发现。针对我国管理科学与工程领域2012年科研合著网络的社区划分结果展现了我国管理科学与工程领域科研合作的特点和问题。 武森 卢丹 冯小东 杜彦南基于MapReduce的大规模文本聚类并行化 被引量:9 2014年 建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性. 武森 冯小东 杨杰 张晓楠关键词:云计算 聚类 相似度 分类属性数据聚类算法HABOS 被引量:3 2016年 CABOSFV_C是一种针对分类属性高维数据的高效聚类算法,该算法采用集合稀疏差异度进行距离计算,并采用稀疏特征向量实现数据压缩.该算法的聚类效果受集合稀疏差异度上限参数的影响,而该参数的选取没有明确的指导.针对该问题提出基于集合稀疏差异度的启发式分类属性数据层次聚类算法(heuristic hierarchical clustering algorithm of categorical data based on sparse feature dissimilarity,HABOS),该方法从聚结型层次聚类思想的角度出发,在聚类数上限参数的约束下,应用新的内部聚类有效性评价指标(clustering validation index based on sparse feature dissimilarity,CVISFD)进行启发式度量,从而实现对聚类层次的自动选取.UCI基准数据集的实验结果表明,HABOS有效地提高了聚类准确性和稳定性. 武森 姜丹丹 王蔷关键词:数据挖掘 聚类算法 分类数据 基于作者引用文献关系的潜在研究兴趣主题发现 被引量:5 2014年 扩展LDA(latent dirichlet allocation)模型,提出基于作者引用文献关系的作者-兴趣主题-文献模型。每个作者被分配一个在所有主题上的多项概率分布,每个主题被分配一个在所有文献上的多项概率分布。在DBLP(digital bibliography&library project)文献引用关系数据集上的实验表明,所提模型能有效地提取一个研究领域的主要潜在研究兴趣主题及其所包含的代表性文献,并能挖掘每个作者属于每个研究兴趣主题的分布。 冯小东 武森 王佳晔关键词:数据挖掘 主题发现 LATENT DIRICHLET ALLOCATION 电子商务中基于复杂网络社团发现的商品推荐研究 被引量:3 2015年 本文针对电子商务中的商品推荐问题,利用交易数据构建基于商品的复杂网络,提出一种基于复杂网络社团发现的商品推荐方法,并且应用数据集进行了实验分析。结果表明,本方法在某用户只有较少历史行为数据时,仍可对该用户进行推荐,而且推荐结果可以保证新颖度和覆盖度。另外,此方法可处理的数据规模适用于电子商务的商品推荐,并且计算复杂度较低。 卢丹 王君博 武森关键词:电子商务 复杂网络 社团发现 基于聚类欠采样的集成不均衡数据分类算法 被引量:12 2017年 传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度. 武森 刘露 卢丹关键词:不均衡数据 欠采样 聚类