国家教育部博士点基金(20121401110013) 作品数:11 被引量:57 H指数:5 相关作者: 钱宇华 成红红 张晓琴 王建新 李顺勇 更多>> 相关机构: 山西大学 闽南师范大学 教育部 更多>> 发文基金: 国家教育部博士点基金 教育部“新世纪优秀人才支持计划” 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 理学 更多>>
自主确定社区个数的二模网络社区发现算法 被引量:8 2015年 现有算法虽然能发现二模网络的社区结构,但由于实际网络的多样性或复杂性,往往不能预知社区个数及相关信息,无法相对准确地发现真实的社区结构.针对此问题,文中提出自主确定社区个数的二模网络社区发现算法——聚类分配算法(CAA).该算法有效利用二模网络中两类节点的交互信息,解决确定社区个数的难题.对网络中的T类节点进行聚类,再将B类节点按照某种分配机制分配到已有类中.实验表明,CAA比基于资源分布矩阵的算法和基于边集聚系数的算法有更高的准确性,能获得更高质量的社区划分. 郭改改 钱宇华 张晓琴 李烨斌关键词:模块度 面向多标记学习的局部粗糙集 被引量:3 2016年 多标记学习研究的是一个对象同时具有多个标记的一类复杂问题.文本标注、视频内容标注、图像识别和蛋白质功能的发现等都属于这类任务.与单标记学习问题一样,多标记学习也遭遇到了数据维数大的挑战.针对多标记数据,目前已经设计出一些约简算法,但与单标记约简算法相比,方法数量有限且局限性大.随着大数据时代的到来,收集大量样本越来越容易,但标注收集到的全部样本不切实际.这给想要通过利用粗糙集模型来解决多标记学习问题的研究人员带来了三个挑战:数据维数更高、现有粗糙集的局限性和部分标记决策表的出现.为了解决这三个挑战,提出了面向多标记学习的局部粗糙集模型,并获得了一些有意思的性质.最后,通过利用局部粗糙集模型,设计了一个多标记的启发式约简算法,并在三个公开的多标记数据集上验证了算法的有效性. 梁新彦 钱宇华 郭倩 成红红关键词:多标记学习 属性约简 基于多粒度视角下的D-S证据理论融合策略 被引量:5 2014年 D-S证据理论与多粒度粗糙集是两类不同的信息融合方法。对该理论展开详细的论述,找出两者之间的联系。根据这两者之间的互补性,提出了一种多粒度与证据理论相结合的新的融合策略,称之为基于多粒度视角的D-S证据理论的粒度融合方法。最后,通过实例说明了该融合算法的有效性。 林国平 梁吉业 钱宇华关键词:多粒度 D-S证据理论 粗糙集 信息融合 基于多粒度粗糙决策下的属性约简算法 被引量:6 2013年 知识约简是粗糙集研究的内容之一,粒度计算问题结合粗糙集的理论和应用可以解决一些问题.在一个由信息系统构成的多粒度数据集上,利用提出的Seeking Common Ground While Eliminating Differences(SCED)模型和给出的算法,较好地解决了一些多粒度下的属性约简,所给出的实例从时间复杂度上也充分说明了模型和算法的有效性. 李顺勇 钱宇华关键词:粗糙集 属性约简 多粒度 粒计算 数据集 基于空间结构的符号数据仿射传播算法 被引量:3 2016年 由于符号型数据缺乏清晰的空间结构,很难构造一种合理的相似性度量,从而使诸多数值型聚类算法难以推广至符号型数据聚类.基于此种情况,文中引入一种空间结构表示方法,把符号型数据转化为数值型数据,能够在保持原符号型数据的结构特征的基础上重新构造样本之间的相似度.基于此方法,将仿射传播(AP)聚类算法迁移至符号数据聚类中,提出基于空间结构的符号数据AP算法(SBAP).在UCI数据集中若干符号型数据集上的实验表明,SBAP可以使AP算法有效处理符号型数据聚类问题,并且可以提升算法性能. 王齐 钱宇华 李飞江关键词:聚类 空间结构 相似度 依据节点贡献的链路预测方法 被引量:9 2016年 链路预测是复杂网络的一个重要研究方向,基于节点对的相似性指标进行预测是最为常用的一种方法.已有的链路预测方法通常是基于节点对的共同邻居节点的个数或度值来定义它们之间的相似性度量.然而,节点间的关系不仅与公共节点自身的性质有关,节点间联系的紧密程度也会起到一定作用.基于这个观点,提出一种新的节点对相似性指标,称为依据节点贡献(Node Contribution)的相似性指标.该指标主要通过定义节点的贡献来刻画共同邻居节点之间的联系紧密程度,进而给出节点相似性的计算方法.在六组实际数据集上的实验分析表明该方法比三种经典的链路预测方法具有更好的链路预测性能. 陈佳璐 钱宇华 张晓琴 梁新彦关键词:链路预测 全粒度聚类算法 被引量:2 2014年 聚类分析是数据挖掘与知识发现领域的一个重要研究方向.多数聚类算法中相似性是其核心概念之一,对象之间的相似性会被直接或者间接的计算出来.传统的相似性度量方法多是基于单一的粒度去观察两个被测对象.在人类认知过程中,通常采用多粒度来更合理有效地进行问题求解.本文借鉴人类的这种多粒度认知机理,提出一种新的相似性学习方法,称作全粒度相似性度量方法,基于此发展了一种全粒度聚类算法.而全粒度相似性度量从各个角度观察被测对象,进而会得到两个对象间更加真实的相似度.从UCI数据集中选取5组数据进行实验,最后通过与两种传统的聚类方法比较验证了全粒度聚类算法的合理性与有效性. 李飞江 成红红 钱宇华关键词:聚类分析 符号数据的无监督学习:一种空间变换方法 被引量:2 2016年 近年来符号数据的无监督学习在模式识别、机器学习、数据挖掘和知识发现等诸多领域扮演着越来越重要的角色。然而现有的针对符号数据的聚类算法(经典的K-modes系列算法等),相比数值型数据的聚类算法,在性能方面仍然有很大的提升空间。其根本原因在于符号数据缺乏类似数值数据那样清晰的空间结构。为了能够有效地发掘符号数据内在的空间结构,采用了一种全新的数据表示方案:空间变换方法。该方法将符号数据映射到相应的由原来的属性组成的新的维度的欧氏空间中。在这一框架的基础上,为了找到符号数据更有代表性的模式,结合CarreiraPerpin提出的K-modes算法进行无监督学习。在9个常用的UCI符号数据集上进行了测试,与传统的符号数据聚类算法进行了实验比较,结果表明几乎在所有的数据集上提出的方法都是更加有效的。 王建新 钱宇华大数据关联关系度量研究综述 被引量:17 2015年 大数据关联性分析是大数据挖掘的基础,一个好的关联性度量是实施关联分析的关键。本文首先指出大数据时代关联度量面临的挑战和研究现状,从关联关系度量的构造角度出发,对现有的关联关系度量进行整理,归纳总结了这些关联关系的性质和适用条件。在回顾关联度量发展历程的基础上,结合大数据时代关联关系的特点,提出构造关联度量可能满足的条件。最后针对多模态数据关联关系度量的若干问题进行探讨和梳理,从3个角度出发,提出应对多模态数据空间转换的挑战,以引起对该领域更深入的思考与研究工作,从而促进大数据挖掘工作的进展。 钱宇华 成红红 梁新彦 王建新关键词:大数据 关联性分析