唐东凯
- 作品数:4 被引量:37H指数:2
- 供职机构:长春工业大学计算机科学与工程学院更多>>
- 发文基金:吉林省科技厅发展计划项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 优化初始聚类中心的改进K-means算法被引量:34
- 2018年
- 针对K-means算法对初始聚类中心和离群点敏感的缺点,提出了一种优化初始聚类中心的改进K-means算法.该算法首先计算出数据集中每个数据对象的离群因子,并根据离群因子的值对数据集进行升序排列,使得中心点的位置靠前.然后在升序排列的数据集上,引入取样因子α,得到候选初始中心点集.最后,根据最大最小距离的思想,在候选初始中心点集上选取k个数据对象作为初始聚类中心.实验结果表明,在时间基本相同的情况下,提出的改进算法相对K-means、K-means++算法具有较好的稳定性和较高的聚类准确率,并且聚类的平均迭代次数也相对较小.
- 唐东凯王红梅胡明刘钢
- 关键词:K-MEANS算法初始聚类中心
- 基于Lucene和协同过滤算法的知识推送
- 2016年
- 将Lucene检索技术、IKAnalyzer分词器以及Tika文本提取技术相结合进行智能文件检索及分类。然后根据用户的检索结果对文件关键字进行权值设置,用户关注度越高,则关键字权值越大。使用协同过滤算法根据用户查找的内容对用户关注度高的文件进行推送。
- 肖巍唐东凯孙境棋刘泽豪
- 关键词:LUCENE协同过滤算法
- 不确定聚类中距离计算方法综述被引量:3
- 2017年
- 基于概率模型,将不确定聚类算法分为基于概率模型和缺失概率模型,并分别总结了距离的计算方式。
- 胡明唐东凯李芬田王泽儒
- 基于离群因子的不确定数据生成算法
- 2018年
- 基于不确定数据的表示模型,针对属性级不确定数据,提出一种不确定数据生成算法AC-UDGen(attribute level continuous uncertain data set generation algorithm).该算法通过引入离群点检测-LOF(local outlier factor)算法,用每个数据对象的离群因子作为参数来控制不确定数据对象的扰动范围,可很好地满足原始数据的分布特征,解决了目前工作中缺乏原始数据分布特征的问题.实验结果表明,该算法生成的不确定数据集具有更好的聚类效果,并降低了离群点对聚类结果的影响,使每个数据对象MBR(minimum bounding rectangle)的大小可根据自身的分布特征自适应地变化.
- 刘钢唐东凯王红梅胡明
- 关键词:不确定数据