您的位置: 专家智库 > >

马素琴

作品数:5 被引量:58H指数:4
供职机构:江苏大学计算机科学与通信工程学院更多>>
发文基金:国家火炬计划国家自然科学基金江苏省高校自然科学研究项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇中文期刊文章

领域

  • 5篇自动化与计算...

主题

  • 3篇聚类
  • 2篇文本聚类
  • 2篇聚类算法
  • 2篇加权
  • 1篇数据挖掘
  • 1篇特征加权
  • 1篇中文
  • 1篇中文文本
  • 1篇阈值
  • 1篇阈值优化
  • 1篇文本
  • 1篇文本表示
  • 1篇文本分类
  • 1篇文本特征
  • 1篇文本挖掘
  • 1篇相似度
  • 1篇相似度计算
  • 1篇相似重复记录
  • 1篇向量
  • 1篇向量空间

机构

  • 5篇江苏大学
  • 1篇南京航空航天...

作者

  • 5篇施化吉
  • 5篇马素琴
  • 2篇李星毅
  • 1篇张保富
  • 1篇刘闻超
  • 1篇鲁均云

传媒

  • 2篇计算机应用研...
  • 1篇计算机应用与...
  • 1篇计算机工程与...
  • 1篇计算机工程与...

年份

  • 2篇2011
  • 3篇2010
5 条 记 录,以下是 1-5
排序方式:
基于内码序值聚类的相似重复记录检测方法被引量:8
2010年
检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;然后,通过等级法计算各字段的权值,并将其应用在相似重复记录的检测算法中;最后,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法进行多次检测。通过实验表明,该方法具有较好的检测精度和时间效率,能很好地应用到中英文字符集,通用性很强,并能够有效地解决大数据量的相似重复记录检测问题。
鲁均云李星毅施化吉马素琴
关键词:相似重复记录聚类
基于TFIDF文本特征加权方法的改进研究被引量:37
2011年
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。
张保富施化吉马素琴
关键词:TFIDF文本分类特征加权向量空间模型
基于语义列表的中文文本聚类算法被引量:1
2010年
针对大多数基于向量空间模型的中文文本聚类算法存在高维稀疏、忽略词语之间的语义联系、缺少聚簇描述等问题,提出基于语义列表的中文文本聚类算法CTCAUSL(Chinese text clustering algorithm using semantic list)。该算法采用语义列表表示文本,一个文本的语义列表中的词是该文本中出现的词,从而降低了数据维数,且不存在稀疏问题;同时利用词语间的相似度计算解决了同义词近义词的问题;最后用语义列表对聚簇进行描述,增加了聚类结果的可读性。实验结果表明,CTCAUSL算法在处理大量文本数据方面具有较好的性能,并能明显提高中文文本聚类的准确性。
马素琴施化吉李星毅
关键词:文本聚类文本表示相似度计算
加权模糊关联挖掘算法被引量:6
2010年
针对数量型关联规则挖掘中划分边界过硬问题,以及加权关联规则中为确保向下封闭性成立而引起的规则丢失问题,提出一种新的加权模糊关联挖掘模型及其挖掘算法NFWARM。为了避免区间划分引起的边界过硬问题,该模型引入模糊集软化属性的划分边界;同时,使用属性权重刻画元素对规则的贡献,在保证频繁项集向下封闭性的情况下,不会引起规则丢失。实验结果表明,该算法适用于包含布尔型和数值型数据的大型数据库的规则挖掘,并且得到的频繁项目集数目和规则数目有显著增加。
刘闻超施化吉马素琴
关键词:数据挖掘加权关联规则模糊关联规则隶属度函数
阈值优化的文本密度聚类算法被引量:6
2011年
针对DBSCAN算法的聚类性能受全局阈值影响而降低的问题,提出一种阈值优化的文本密度聚类算法。该算法使用k-近邻距离对对象进行排序,通过分位数区分密度不同的各序列,找到与其对应的优化,根据优化阈值使用密度聚类方法对对象进行聚类。改进后的聚类算法克服了阈值选取对聚类结果影响的问题,提高了聚类精确度和时间效率。采用树形结构存储聚簇,增加了聚簇的可读性。实验结果证明了该算法的有效性。
马素琴施化吉
关键词:文本挖掘文本聚类分位数
共1页<1>
聚类工具0