公共文化服务平台

基于S-C元图的关联规则表示方法被引量：2: 2014年; 针对现有的关联规则可视化形式中,面向专家用户而忽略了普通用户的感知能力,以及当规则数量增多时,边和节点的代表元素易发生重叠,缺乏有效的展现形式,降低了可读性等问题,提出了一种新的基于S-C元图形式的一对一、一对多、多对一、多对多的关联规则可视化表示方法。首先给出了S-C元图的基本定义和以S-C元图展示关联规则的模型;接着给出了S-C元图的性质和推导过程;最后以某省全员人口数据为基础,结合前注意加工理论与格式塔理论,以S-C元图和纺锤体相结合的形式对多模式的关联规则进行可视化展示,并分析了展示效果。实验结果表明,所提出的可视化方法具有良好的展示效果。; 陈敏赵书良郭晓波柳萌萌李晓超; 关键词：关联规则可视化格式塔理论

一种基于谱嵌入和局部密度的离群点检测算法被引量：4: 2019年; 离群点检测问题是数据挖掘领域的研究热点之一。现有的检测算法主要应用于离群点位于初始属性子空间或底层子空间各种线性组合等情况,当离群点嵌入局部非线性子空间时,进行离群点有效检测的难度很大。为此,文中分析了典型的谱嵌入算法在离群点检测上存在的不足,然后以局部密度为基础,提出了一种基于谱嵌入和局部密度的离群点检测算法。该算法采用迭代策略对不重要的特征向量进行高效筛查,以发现有助于检测出局部非线性子空间离群点的特征向量,并利用上一次迭代获得的基于局部密度的谱嵌入结果来改进下一次迭代的相似度图,经过多次迭代可以将离群点从正常点中分离。仿真实验结果表明,所提算法的检测精度优于当前其他典型算法,且该算法对参数的设置不敏感。; 李长镜赵书良池云仙; 关键词：离群点检测

多尺度数据挖掘方法被引量：26: 2016年; 多尺度理论已被引入到数据挖掘领域,但人们对其研究仍不够深入和完善,缺乏普适性理论与方法.随着大数据处理应用的不断深入,其研究变得更加迫切.针对上述问题,进行了普适的多尺度数据挖掘理论和方法的研究.首先,基于概念分层理论给出了数据尺度划分和数据尺度的定义以及多尺度数据集之间的上下层尺度数据集关系;其次,阐明了多尺度数据挖掘的定义、研究实质和方法分类;最后,提出了多尺度数据挖掘算法框架,给出其理论基础,并将此框架应用于关联规则挖掘,提出了多尺度关联规则挖掘算法MSARMA(multi-scale association rules mining algorithm),实现了多尺度数据集之间知识的跨尺度推导.利用IBM T10I4D100K数据集和H省全员人口真实数据集对MSARMA算法进行了实验和分析,实验结果表明:算法具有较高的覆盖率、精确度和较低的支持度估计误差,是可行且有效的.; 柳萌萌赵书良韩玉辉苏东海李晓超陈敏; 关键词：多尺度频繁项集关联规则

基于特征隶属度的文本分类相似性度量方法被引量：2: 2017年; 基于相似性进行文本分类是当前流行的文本处理方法。基于特征隶属度的文本分类相似性度量方法旨在利用特征与文档间的隶属关系度量文档相似性,从而实现文本分类。该方法基于特征与文档的隶属关系,对特征进行全隶属、偏隶属和无隶属词集划分,并基于3种隶属词集定义隶属度函数。全隶属词集隶属于两篇文档,隶属度随权差增大而降低;偏隶属词集仅隶属于其中某一篇文档,隶属度为一个定值;无隶属词集与两篇文档无隶属关系,隶属度为零。在度量相似性时,偏隶属关系高于全隶属关系。由于同类文档词集相近,异类文档词集差异明显,因此,基于特征与文档的隶属度进行相似性度量,可清晰界定词集与类别的隶属关系,提升分类精度。最后,采用数据集20-Newgroups和Reuters-21578对分类有效性进行验证,结果表明基于特征隶属度的相似性度量方法的性能优于目前流行的相似性度量方法。; 池云仙赵书良罗燕赵骏鹏高琳李超; 关键词：数据挖掘文本分类

一种新的面向普通用户的多值属性关联规则可视化挖掘方法被引量：8: 2015年; 针对传统关联规则可视化挖掘方法不利于处理多值属性数据、缺乏展现数据间的频繁模式和关联模式以及效率低下等问题,提出了基于KAF因子和CHF因子的Apriori改进算法进行多值属性关联规则挖掘,实现了一种新的基于概念格的多值属性关联规则可视化方法.运用概念格理论对多值属性数据进行了重新定义和分类,建立了较为完整的挖掘过程参数调整策略,方便用户选择关键属性值进行规则挖掘分析,提高了算法运行速度和挖掘效率.以概念格结构将多值数据组织起来,实现了对频繁项集的可视化展示,以及关联规则的多模式可视化展示.实验结果表明,改进后的挖掘算法具有更好的性能,所提出的可视化形式和已有成果相比具有良好的展现效果.; 郭晓波赵书良王长宾陈敏; 关键词：多值属性概念格关联规则

基于分形理论的多尺度分类尺度上推算法被引量：3: 2018年; 目前,多尺度数据挖掘的研究多集中于空间图像数据,在一般数据集上的研究已经初见成果,主要包括多尺度聚类以及多尺度关联规则,但还没有研究涉及一般数据下的分类。结合分形理论思想,将多尺度数据挖掘相关理论、知识和方法应用于分类领域,提出基于豪斯多夫距离(HD)的相似性度量方法;相对于以往对权重的经验定义,文中明确通过广义分形维数的相似性定义权重来提高相似性度量方法的精度;提出多尺度分类尺度上推算法(MultiScale Classification Scaling-Up Algorithm,MSCSUA);实验采用4个UCI基准数据集和1个真实数据集(H省部分人口)进行仿真实验,实验结果表明多尺度分类思想可行有效,并且MSCSUA算法在不同数据集上的性能均优于SLAD,KNN,Decision Tree以及LIBSVM算法。; 李佳星赵书良安磊安磊

多尺度聚类挖掘算法被引量：7: 2016年; 数据挖掘领域在多尺度研究上已取得了一些进展。然而,当前研究主要集中于空间、图像数据的多尺度挖掘,并且传统的聚类挖掘并未对数据集的多尺度特性进行单独的研究。针对存在的问题,进行了普适性的多尺度聚类挖掘理论和方法的研究。首先,根据概念分层理论扩展尺度定义并构建多尺度数据集;其次,阐述尺度转换原因、分类,归纳多尺度聚类的定义;然后,以克里格法为理论基础,给出多尺度聚类尺度上推算法MSCSUA和多尺度聚类尺度下推算法MSCSDA;最后,利用公用UCI聚类数据集和H省全员人口真实数据集对算法进行实验验证,结果表明MSCSUA和MSCSDA是有效、可行的。; 韩玉辉赵书良柳萌萌罗燕丁亚飞; 关键词：多尺度聚类

基于模糊c-means与自适应粒子群优化的模糊聚类算法被引量：9: 2016年; 已有的粒子群模糊聚类算法需要设置粒子群参数并且收敛速度较慢,对此提出一种基于改进粒子群与模糊c-means的模糊聚类算法。首先,使用模糊c-means算法生成一组起始解,提高粒子群演化的方向性;然后,使用改进的自适应粒子群优化方法对数据进行训练与优化,训练过程中自适应地调节粒子群参数;最终,采用模糊c-means算法进行模糊聚类过程。对比实验结果表明,所提方法大幅度提高了计算速度,并获得了较高的聚类性能。; 耿宗科王长宾张振国; 关键词：粒子群优化模糊聚类算法自适应调节收敛速度

基于加权向量提升的多尺度聚类挖掘算法被引量：4: 2015年; 多尺度聚类挖掘在指导人们进行多尺度决策方面有着不可取代的作用,然而传统的多尺度聚类挖掘算法有一个致命的弱点,即需要在每个用户感兴趣的尺度上应用聚类挖掘算法。为克服此缺陷,定义了一种将数据的多尺度特性进行向量化的方法;结合地学领域的尺度转换机制,提出了一种新的知识的多尺度转换机制——基于加权向量提升的多尺度聚类挖掘算法WVB-MSCA(Weight Vector Based Multi-scale Clustering Algorithm)。算法首先在选定的基准尺度上进行聚类挖掘,获取聚类结果,并借助尺度转换机制将基准尺度的聚类结果反演到其它感兴趣的尺度上。实验表明,算法WVB-MSCA是可行且有效的。; 苏东海赵书良柳萌萌苏嘉庚李妍; 关键词：多尺度聚类挖掘

基于词频统计的文本关键词提取方法被引量：69: 2016年; 针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。; 罗燕赵书良李晓超韩玉辉丁亚飞; 关键词：词频统计齐普夫定律关键词提取

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(71271067)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(71271067)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈