张冬梅
- 作品数:14 被引量:45H指数:5
- 供职机构:山东建筑大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金山东省自然科学基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术理学文化科学更多>>
- 概念与文档的语义相似度计算被引量:8
- 2008年
- 将本体作为背景知识引入到概念之间相似度和文档之间相似度的计算中。通过图模型表示本体中概念以及概念之间的语义关系,用来将一个概念和一个文档扩展为一个语义模糊集,并计算模糊集合之间的相似度。文档相似度的计算是在概念相似度计算的基础之上。在概念相似度的计算过程中引入了语义相似度矩阵以及基于共信息理论的模糊相似度方法。
- 宋玲郭家义张冬梅汤晓兵高楠
- 关键词:概念相似度文档相似度本体文档聚类
- 关于数据结构中递归的教学探讨被引量:4
- 2010年
- 一个直接或间接调用自己的函数被称为递归函数,在程序设计中递归是一个非常重要且强有力的工具。在数据结构这门课程的教学过程中,学生对递归的理解和掌握将为以后学习二叉树、图和排序中的算法奠定坚实的基础。通过实例和图表对递归概念和递归执行过程这两方面进行了分析和探讨。在教学过程中采用该方法后,学生对递归的理解更加深刻,取得了更好的教学效果。
- 牛小飞李盛恩张冬梅宋玲汤晓兵
- 关键词:数据结构递归
- 带惩罚μ-相似Bregman散度k-均值问题的初始化算法
- 2022年
- k-均值问题是聚类中的经典问题,亦是NP-难问题。如果允许数据点不聚类,而是支付惩罚费用,则引出带惩罚的k-均值问题。本文将带惩罚的k-均值问题从欧氏距离推广到更一般的μ-相似Bregman散度,研究了带惩罚μ-相似Bregman散度k-均值问题的初始化算法。本文给出的初始化算法,近似比与μ和数据点惩罚最大值与最小值的比例r相关。
- 刘文杰张冬梅张鹏邹娟
- 关键词:K-均值惩罚初始化算法
- κ-均值算法的初始化方法综述被引量:6
- 2018年
- k-均值问题自提出以来一直吸引组合优化和计算机科学领域的广泛关注,是经典的NP-难问题之一.给定N个d维实向量构成的观测集,目标是把这N个观测点划分到k(≤N)个集合中,使得所有集合中的点到对应的聚类中心距离的平方和最小,一个集合的聚类中心指的是该集合中所有观测点的均值.k-均值算法作为解决k-均值问题的启发式算法,在实际应用中因其出色的收敛速度而倍受欢迎.k-均值算法可描述为:给定问题的初始化分组,交替进行指派(将观测点分配到离其最近的均值点)和更新(计算新的聚类的均值点)直到收敛到某一解.该算法通常被认为几乎是线性收敛的.但缺点也很明显,无法保证得到的是全局最优解,并且算法结果好坏过于依赖初始解的选取.于是学者们纷纷提出不同的初始化方法来提高k-均值算法的质量.现筛选和罗列了关于选取初始解的k-均值算法的初始化方法供读者参考.
- 徐大川许宜诚张冬梅
- 关键词:初始化方法
- 面向层次分类的文本特征选择方法被引量:2
- 2011年
- 提出一种针对层次分类的文本特征选择方法.先给出类别层次相关度的概念,并利用分类树和训练数据在不同层次上的概率分布进行计算,进而得到分类树中不同类别的重要性.最后基于前面的计算结果,计算每个特征对类别的识别能力,并选择识别能力大的特征组成用于分类的特征集合.实验表明该方法在选取的特征质量以及在accuracy、F1和micro-Precision等分类测度上均优于传统方法.
- 祝翠玲马军张冬梅
- 关键词:文本特征选择
- k-平均问题及其变形的算法综述被引量:5
- 2017年
- k-平均问题是计算机科学和组合优化领域的经典问题之一.k-平均聚类作为最受重视而且最简单易懂的一种聚类分析方法流行于数据挖掘领域.k-平均问题可描述为:给定n个元素的观测集,其中每个观测点都是d维实向量,目标是把这n个观测点划分到k(≤n)个集合中,使得所有集合中的点到对应的聚类中心的距离的平方和最小,其中一个集合的聚类中心指的是该集合中所有观测点的均值.k-平均问题在理论上是NP-难的,但有高效的启发式算法,广泛应用在市场划分、机器视觉、地质统计学、天文学和农业等实际背景中.随着实际问题中遇到的k-平均问题更加复杂,数据量更加庞大,还需学者进行更深一步的研究.罗列出k-平均问题及其诸多变形及推广问题的经典算法,并总结k-平均中尚待研究的若干问题.
- 徐大川许宜诚张冬梅
- 关键词:聚类问题
- 用户评论中的标签抽取以及排序被引量:11
- 2012年
- 对于一个实体(产品或者商户),往往伴随着成千上万的用户评论。如何从这些冗杂的评论信息中抽取能够描述此实体的精华信息是研究的热点问题。该文提出了一种能够为每个实体抽取特征标签的方法,并且语义去重,保证标签在语义空间内相互独立。首先,对于每个实体的所有评论,进行中文分词、词性标注,并且做依存句法分析。然后,根据每个句子中的依存关系,抽取关键标签,构成此实体的标签库,并且对标签库进行显式语义去重。最后通过K-Means聚类以及Latent Dirichlet Allocation(LDA)主题模型将每个标签映射到语义独立的主题空间,再根据每个标签相对该主题的置信度进行排序。通过以上步骤,可以为每个实体抽取语义独立的关键标签描述,实验中,该文通过对返回标签列表的准确性以及语义多样性进行了统计分析,验证了标签抽取方法的可行性和有效性。
- 李丕绩马军张冬梅韩晓晖
- 关键词:主题模型排序
- k-均值问题的理论与算法综述被引量:9
- 2020年
- k-均值问题是理论计算机科学和组合优化领域的经典问题之一.相应的Lloyd算法是数据挖掘的十大经典算法之一,在各种领域被广泛研究和应用,特别是在图像处理和特征工程方面.随着数据多样性和数据量的爆炸性增长,在实际应用中遇到的k-均值聚类问题更加复杂多样,产生了各种亟需解决的具有挑战性的研究课题. k-均值问题在理论上是NP-难的.本文介绍经典k-均值问题及其变形的基于局部搜索、线性规划舍入、原始对偶、对偶拟合和Lagrange松弛等技术的有效算法.首先介绍经典k-均值问题的近似算法、加倍度量空间中的有效多项式时间近似方案及满足稳定性实例的多项式可解性,然后介绍k-均值问题的若干重要变形,包括k-中位、球面k-均值、鲁棒k-均值、带约束的k-均值和隐私保护k-均值等问题,最后列出k-均值领域中的若干公开问题.
- 张冬梅李敏徐大川张真宁
- 关键词:K-均值线性规划
- 次模函数最大化的流算法综述被引量:2
- 2020年
- 次模函数优化在计算机科学、数学、经济学等学科得到广泛研究.大数据环境下的次模优化是相对较新的研究领域,受到更多关注.特别地,考虑基于流模型的次模最大化问题.在该问题中,数据以流的形式呈现,其目的是从数据流中抽取满足某些特性的稀疏子集,最大化次模收益函数值.介绍了基于流模型的次模最大化问题的阈值和优先权方法,同时也介绍了若干次模最大化变形的流算法进展.
- 杨瑞琪徐大川杜东雷张冬梅
- 关键词:大数据
- 基于遗传规划集成学习的网络作弊检测
- 2012年
- 网络作弊检测是搜索引擎的重要挑战之一,该文提出基于遗传规划的集成学习方法 (简记为GPENL)来检测网络作弊。该方法首先通过欠抽样技术从原训练集中抽样得到t个不同的训练集;然后使用c个不同的分类算法对t个训练集进行训练得到t*c个基分类器;最后利用遗传规划得到t*c个基分类器的集成方式。新方法不仅将欠抽样技术和集成学习融合起来提高非平衡数据集的分类性能,还能方便地集成不同类型的基分类器。在WEBSPAM-UK2006数据集上所做的实验表明无论是同态集成还是异态集成,GPENL均能提高分类的性能,且异态集成比同态集成更加有效;GPENL比AdaBoost、Bagging、RandomForest、多数投票集成、EDKC算法和基于Prediction Spamicity的方法取得更高的F-度量值。
- 牛小飞马军马少平张冬梅