您的位置: 专家智库 > >

山西省科技基础条件平台建设计划项目(2012091002-0101)

作品数:10 被引量:106H指数:6
相关作者:梁吉业赵兴旺王宝丽高嘉伟刘杨磊更多>>
相关机构:山西大学太原师范学院更多>>
发文基金:山西省科技基础条件平台建设计划项目国家自然科学基金山西省科技攻关计划项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 10篇中文期刊文章

领域

  • 10篇自动化与计算...

主题

  • 2篇多标记
  • 2篇多标记学习
  • 2篇缺失值
  • 2篇缺失值填充
  • 2篇混合数据
  • 2篇函数型数据
  • 2篇半监督学习
  • 2篇TRI-TR...
  • 1篇点检测算法
  • 1篇信息熵
  • 1篇学习算法
  • 1篇再生核
  • 1篇支持向量
  • 1篇支持向量机
  • 1篇社交
  • 1篇社交网
  • 1篇社交网络
  • 1篇数据分类
  • 1篇数据稀疏
  • 1篇数据稀疏性

机构

  • 10篇山西大学
  • 4篇太原师范学院

作者

  • 10篇梁吉业
  • 3篇赵兴旺
  • 2篇孟银凤
  • 2篇王宝丽
  • 2篇刘杨磊
  • 2篇高嘉伟
  • 1篇杨静
  • 1篇庞继芳
  • 1篇王锋
  • 1篇李茹
  • 1篇郭兰杰
  • 1篇许行
  • 1篇郭一鹏
  • 1篇张佳乐

传媒

  • 3篇小型微型计算...
  • 2篇模式识别与人...
  • 1篇计算机研究与...
  • 1篇南京大学学报...
  • 1篇中文信息学报
  • 1篇计算机科学
  • 1篇智能系统学报

年份

  • 1篇2017
  • 3篇2016
  • 1篇2015
  • 3篇2014
  • 2篇2013
10 条 记 录,以下是 1-10
排序方式:
基于最小二乘支持向量机的函数型数据回归分析被引量:7
2014年
部分函数线性模型是用于处理输入变量包含函数型和数值型两种数据类型而输出变量为数值的一类回归机.为提高该模型的预测精度,基于函数系数在再生核Hilbert空间上的表示,得到模型的结构化表示,将函数系数的估计转化为参数向量的估计问题,并运用最小二乘支持向量机方法得到参数估计形式.实验表明,文中算法对数值型数据的向量系数的估计与其他参数估计方法性能相近,但对函数型数据的函数系数的估计更加准确稳健,有助于确保学习机的预测精度.
孟银凤梁吉业
关键词:函数型数据最小二乘支持向量机再生核
基于行为和评分相似性的关联规则群推荐算法被引量:9
2014年
使用关联规则推荐工具会遇到最优推荐规则选取难、规则信息不能充分利用等问题。利用较易获取的应用领域知识可有效解决这类问题。针对仅有商品名称和评分信息的推荐情形,提出一种基于行为和评分相似性的关联规则群推荐算法,该算法将规则及相应的评分信息视为推荐专家,将推荐结论相同的专家合并为一个专家组,利用客户行为和评分的双重相似性计算专家权重,并利用群决策的思想集结专家组的推荐意见,从而给出最佳推荐方案。最后通过实例和实验说明了该算法的可行性和有效性。
张佳乐梁吉业庞继芳王宝丽
关键词:关联规则
基于双向有序互信息的单调分类决策树算法被引量:5
2013年
决策树是一种智能进行实例分类的数据挖掘方法,已被广泛应用于机器学习、数据挖掘、智能控制等人工智能领域.单调决策树可以解决属性具有单调序关系的分类问题,近年来引起了国内外研究者的广泛关注.Hu提出了基于优势关系的有序信息熵的概念,并将其成功地运用于有序决策树的构造算法中,得到了较好的效果.在Hu的算法的基础上,利用双向的有序互信息生成不同的决策树,再集成其分类规则得到最后的决策结果,实验数据表明,相对于单向的有序分类树,此算法可以提高分类准确率,缩短分类规则的长度.
许行梁吉业王宝丽
关键词:决策树
特征选择:一种面向数据取值更新的批处理机制被引量:7
2017年
实际应用中获取到的数据通常是动态更新的,且随着数据观测工具的快速发展,数据库中数据更新的速度也越来越快,同一时刻更新的规模也越来越大.面向动态数据集的数据挖掘研究中,数据库中数据取值的动态更新也是一种数据集动态变化的类型.特征选择是一种有效的数据预处理工具,面向数据取值动态更新的特征选择方法也已经引起了众多研究者的广泛关注.为此,基于粗糙集理论和信息熵的概念,提出一种面向数据取值动态变化数据集的特征选择方法,可一次处理一组取值发生变化的数据.算法中首先分析了信息熵随数据取值动态变化的更新机制,以信息熵作为特征重要度的度量,设计了基于信息熵的粗糙特征选择算法.实验结果进一步验证了新算法的可行性和高效性.
张娇鹏王锋梁吉业
关键词:粗糙集信息熵
一种基于Tri-training的半监督多标记学习文档分类算法被引量:8
2015年
多标记学习主要用于解决因单个样本对应多个概念标记而带来的歧义性问题,而半监督多标记学习是近年来多标记学习任务中的一个新的研究方向,它试图综合利用少量的已标记样本和大量的未标记样本来提高学习性能。为了进一步挖掘未标记样本的信息和价值并将其应用于文档多标记分类问题,该文提出了一种基于Tritraining的半监督多标记学习算法(MKSMLT),该算法首先利用k近邻算法扩充已标记样本集,结合Tri-training算法训练分类器,将多标记学习问题转化为标记排序问题。实验表明,该算法能够有效提高文档分类性能。
高嘉伟梁吉业刘杨磊李茹
关键词:半监督学习多标记学习文档分类
函数型数据分类中的稳健主成分分析被引量:5
2016年
作为一种重要的数据类型,函数型数据经常出现在实际应用问题当中.当输入是函数型数据输出是类别标签时,该实际问题就变成了函数型数据的分类问题.函数型数据通常具有高维、自相关等特点,抽取关键趋势特征是对函数型数据两阶段机器学习的重要一环.一方面可以避免维数灾难,另一方面可以保留重要的判别特征.函数主成分分析是一种由数据驱动的、对函数型数据进行降维处理的有效方法.然而,离群函数样例和样例间特征未对齐等因素使得函数主成分对函数型数据的表示能力退化.为此,本文提供了一种对函数型数据进行纵向标准化变换的方法,即将每个函数样例的值域变换到单位区间且不改变函数样例的整体变化趋势的一种变换,并指出该变换能够提供较为稳健的函数主成分并为改善分类精度奠定基础.
孟银凤梁吉业
关键词:函数型数据
融合社交网络信息的协同过滤推荐算法被引量:39
2016年
在推荐系统中,协同过滤推荐算法往往面临数据集的高度稀疏性和推荐精度有限的问题.为了解决上述问题,在基于物品的协同过滤推荐框架下,分别在物品相似度的计算和用户对物品的评分预测阶段,利用社交网络中朋友关系信息选择性地填充评分矩阵中的缺失值,最大化利用评分矩阵中的已有信息,提出融合社交网络信息的协同过滤推荐算法.最后,在Epinions数据集上的实验表明,文中算法在一定程度上缓解数据稀疏性问题,同时在评分误差和分类准确率两个指标上优于其它协同过滤算法.
郭兰杰梁吉业赵兴旺
关键词:协同过滤社交网络缺失值填充数据稀疏性
基于Tri-training的半监督多标记学习算法被引量:4
2013年
传统的多标记学习是监督意义下的学习,它要求获得完整的类别标记.但是当数据规模较大且类别数目较多时,获得完整类别标记的训练样本集是非常困难的.因而,在半监督协同训练思想的框架下,提出了基于Tri-training的半监督多标记学习算法(SMLT).在学习阶段,SMLT引入一个虚拟类标记,然后针对每一对类别标记,利用协同训练机制Tri-training算法训练得到对应的分类器;在预测阶段,给定一个新的样本,将其代入上述所得的分类器中,根据类别标记得票数的多少将多标记学习问题转化为标记排序问题,并将虚拟类标记的得票数作为阈值对标记排序结果进行划分.在UCI中4个常用的多标记数据集上的对比实验表明,SMLT算法在4个评价指标上的性能大多优于其他对比算法,验证了该算法的有效性.
刘杨磊梁吉业高嘉伟杨静
关键词:多标记学习半监督学习TRI-TRAINING
基于MapReduce的混合数据孤立点检测算法被引量:3
2014年
在处理混合型大数据时,已有孤立点检测算法往往存在时间代价大、适用性差等问题.为了解决这一问题,本文基于最近邻思想提出了一个混合数据孤立点检测算法.该算法依据邻域计数的思想给出混合数据对象之间的相异性度量,并基于最近邻定义了对象的孤立度,进而设计出一个混合数据孤立点检测算法,并且基于MapReduce编程模型对该算法进行了并行化设计以进一步提高算法执行效率.最后,在UCI数据集上通过与已有算法比较实验结果表明,本文提出的混合数据孤立点检测算法能有效地检测出孤立点,具有参数少、检测精度高的优点;算法的并行化实现提高了算法对混合型大数据的孤立点检测效率.
郭一鹏梁吉业赵兴旺
关键词:孤立点检测MAPREDUCE
一种不完备混合数据集成聚类算法被引量:19
2016年
集成聚类技术由于具有较好的泛化能力,目前引起了研究者的高度关注.已有研究主要关注数值型完备数据的集成聚类问题.然而,实际应用中面临的数据往往是兼具数值属性和分类属性共同描述的混合型数据,而且通常带有缺失值.为此,针对不完备混合数据提出了一种集成聚类算法,首先利用3种缺失值填充方法对不完备混合数据进行完备化处理;其次在3种填充后的不同完备数据集上分别多次执行K-Prototypes算法产生基聚类结果;最后对基聚类结果进行集成.在UCI真实数据集上与传统聚类算法通过实验进行了比较分析,实验结果表明提出的算法是有效的.
史倩玉梁吉业赵兴旺
关键词:不完备数据混合数据缺失值填充
共1页<1>
聚类工具0