赵旭俊
- 作品数:48 被引量:86H指数:5
- 供职机构:太原科技大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金山西省青年科技研究基金山西省自然科学基金更多>>
- 相关领域:自动化与计算机技术天文地球文化科学理学更多>>
- 基于频繁模式树的正负项目集挖掘被引量:2
- 2012年
- 传统的基于支持度—置信度框架的关联规则挖掘方法可能会产生大量不相关的、甚至是误导的关联规则,同时也不能区分正负关联规则。在充分考虑用户感兴趣模式的基础上,采用一阶谓词逻辑作为用户感兴趣的背景知识表示技术,提出了一种基于背景知识的包含正负项目集的频繁模式树,给出了针对正负项目集的约束频繁模式树的构造算法NCFP-Construct,从而提高了关联规则挖掘的效率和针对性,实验结果显示该方法是有效的。
- 赵旭俊
- 关键词:频繁模式树关联规则
- 基于信息熵的加权频繁模式树构造算法研究被引量:3
- 2014年
- 关联规则挖掘时,数据集中各项目的重要性不同且较难主观给出,直接影响挖掘结果.针对此问题,给出加权项目集和加权关联规则的概念,并通过信息熵来确定单属性的权重,同时采用几何均值和取最大权重值的折中方法来确定多项目集的权重,以此在兼顾整体权重的同时,突出重要项目.在此基础上,采用加权频繁模式树来提取加权频繁模式,并给出加权频繁模式树的构造方法,最后以国家天文台提供的天体光谱数据及机械装备EDEM数据作为数据集,实验验证算法的高效率.
- 赵旭俊蔡江辉马洋
- 关键词:关联规则信息熵
- 一种基于子空间的两阶段离群点检测算法
- 2017年
- 将高维数据投影在子空间中,是解决"维灾"的有效途径之一。从提高挖掘效率的角度,给出一种新的基于子空间的两阶段离群检测算法,利用密度阈值筛选候选离群对象减少计算量。该算法首先,计算每个数据对象在每一维的密度比,所有维的密度比乘积取对数平均作为密度系数,并选取候选离群对象;其次,候选离群对象的邻居在每一个关联子空间中的偏离程度之积作为偏差比,密度系数与偏差比的乘积作为离群系数,并确定离群数据对象。由于仅计算候选离群对象的离群系数,因此有效地提高挖掘效率;最后,采用UCI数据集,实验验证了该算法不仅保证挖掘结果精度,而且有效提高了挖掘效率。
- 殷跃杰赵旭俊
- 关键词:离群点检测高维
- 基于MapReduce的并行加权k近邻与离群检测被引量:3
- 2019年
- 利用MapReduce编程模型,提出一种并行的加权k近邻与离群检测方法WKNNOM-MR.该算法首先对输入数据随机均匀采样,在样本数据集中采用信息熵计算各个属性的权值;然后在集群中的数据节点上对输入数据进行加权,并将其映射到Z-order空间填充曲线,给出了一种基于Z-order的加权k近邻查询方法;根据每个对象与其加权k近邻之间的距离计算离群因子,在兼顾最小距离与平均距离的基础上,给出离群点检测算法;最后在具有5个节点的Hadoop集群上实现该算法,并采用人工合成数据集、UCI标准数据集进行实验,结果验证了该算法的有效性、可扩展性和可伸缩性。
- 郭娟娟赵旭俊张继福
- 关键词:并行计算离群检测
- 基于分组地图匹配的异常轨迹检测
- 2024年
- 为提高轨迹数据的质量,提出一种轨迹点的多尺度综合映射算法。采用分组匹配的思想,依据每组特性剪枝无效的轨迹点,加快映射轨迹点的连接速度,快速得到路网轨迹。在此基础上,为有效进行异常轨迹的检测,提出一种基于分组地图匹配的异常轨迹检测算法,研究字符串相似性搜索,构建相似轨迹序列寻找代表轨迹,基于交叉点行驶状况对轨迹点进行约减,减少轨迹间的计算量,计算轨迹的异常阈值,判定异常轨迹。在真实的出租车数据集上进行实验,验证了提出方法的执行效率和准确性。
- 龚艺璇赵旭俊曹栩阳
- 关键词:异常检测地图匹配
- 基于同构化角度的离群检测方法
- 2024年
- 针对基于角度的离群检测方法普遍存在的计算成本高昂,且对超参数选择依赖性强的问题,提出一种基于角度的快速非参数方法HAOD。对数据集进行中心化处理并使用极坐标描;在此基础上,提出一种向量夹角计算函数的近似表示方法,采用该方法将向量夹角用一维顺序结构表示,提升检测效率;引入经验累积分布函数分别计算向量夹角及向量模长的尾部概率,将其作为单维度尾部得分;改进单维度尾部得分的聚合方式,对原始向量及其反转向量的尾部得分进行聚合,获取最终离群得分。在ODDS和UCI高维数据集上进行实验,其结果表明,HAOD在检测效率上优于5种对比方法,分别平均提高了28.74%至84.71%。
- 裴正中赵旭俊
- 关键词:高维数据离群检测偏度
- 大数据科研成果支撑教学研究——以《数据挖掘与智能决策》为例被引量:6
- 2020年
- 随着大数据时代的来临,《数据挖掘与智能决策》课程面临着如何适应时代需求的任务,将大数据相关的科研成果融于《数据挖掘与智能决策》课程的教学中,不仅能激发学生的积极性,更能提高学生的创造性和应用能力。在分析当前《数据挖掘与智能决策》课程存在的问题之后,分别从离群数据挖掘和关联规则挖掘两方面结合大数据科研成果,讨论了融合之后的课程教学,从而为《数据挖掘与智能决策》课程的建设提供一种新思路。
- 赵旭俊蔡江辉马洋杨海峰赵志诚
- 关键词:大数据教学模式课程建设
- 基于PSO的二阶段光谱模糊聚类研究被引量:4
- 2009年
- 在海量的天体光谱数据中利用无监督聚类学习方法将天体自动分类具有更加诱人的前景。针对当前聚类方法存在的缺点,提出一种高效的高维数据硬划分算法,在此基础上提出了一种分阶段模糊聚类方法。第一阶段,利用硬划分算法对数据聚类,克服了模糊聚类算法对初始值敏感的缺点。第二阶段,以第一阶段运算结果作为初始值,进行模糊聚类的,并将微粒群算法引入模糊聚类,从而保证了聚类结果的全局最优性。实验结果表明,该方法用于天体光谱聚类是可行的、有价值的。
- 蔡江辉张继福赵旭俊
- 关键词:模糊聚类微粒群恒星光谱数据全局最优
- 一种恒星光谱分类规则后处理方法被引量:2
- 2013年
- 随着LAMOST巡天的逐步实施,天体光谱数据量极大,对观测数据进行自动分类及分析具有重要的意义。采用常规方法获取的分类规则集中,往往存在大量冗余规则,影响了分类效率和质量。本文给出了一种基于谓词逻辑的分类规则后处理方法,通过利用谓词描述光谱分类规则,并对分类规则集进行谓词演算,消除冗余规则。最后,采用LAMOST观测的恒星光谱数据,实验验证该方法在保证分类准确率不降低的前提下,可大幅提高自动分类效率。
- 蔡江辉杨海峰赵旭俊张继福
- 关键词:天体光谱数据谓词逻辑后处理
- MapReduce编程模型下的约束频繁模式挖掘算法被引量:2
- 2015年
- 约束频繁模式是利用用户给定的约束条件,生成的一种频繁模式,具有针对性强、挖掘效率高等特点.随着数据量的增大,约束频繁模式生成过程存在着占用内存大和I/O代价高等问题,难以适用于海量高维数据集.采用MapReduce编程模型,给出一种约束频繁模式并行挖掘MCFP算法.该算法首先,采用三对Map和Reduce函数实现了将数据中事务映射为频繁项计数、构建约束频繁模式树和生成约束频繁模式,以及频繁模式聚合等主要步骤;其次,根据频繁项支持度,迁移数据记录,有效地实现了频繁模式生成过程中的负载均衡;最后,采用天体光谱数据,实验验证了该算法的有效性、可伸缩性和可扩展性.
- 闫晓妩张继福荀亚玲赵旭俊
- 关键词:负载均衡