严桂夺
- 作品数:6 被引量:41H指数:4
- 供职机构:华南理工大学计算机科学与工程学院更多>>
- 发文基金:广东省自然科学基金广东省科技攻关计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于特征词关联性的同义词集挖掘算法被引量:10
- 2009年
- 一词多义和多词同义是语言中广泛存在的现象,它给自然语言处理带来了很多困难,解决这个难题的有效办法是建立包含上下文信息的同义词集。深入分析了概念、词汇和特征词三者的内在关系,并在此基础上提出了一种基于同义词汇的特征词的关联性,从文本中挖掘同义词集的算法。根据特征词之间存在关联性的特点,算法以成熟的关联规则挖掘算法作为基础,获得了明显优于同类算法的实验效果。算法获得的同义词集附带上下文信息,可有效解决文本中词汇的多义性和同义性问题。
- 陈建超郑启伦李庆阳严桂夺
- 关键词:自然语言处理同义词集特征词
- 用于网页目录构建的文本聚类算法
- 2010年
- 为了提高网页目录的构建效率、增加其灵活性,提出了一种改进的文本聚类算法。改进的CBC算法用于快速确定文本的聚类中心,根据网页目录的特点,该算法增加了层次聚类方法,以形成文本类别的层次结构,考虑到网页文本的快速增长,采用增量方式对新网页进行聚类。把该算法应用于网页文本集,产生了有意义的聚类结果,对比K-Means算法,获得了更高的精度,并具有较高的时间性能,实验结果表明了该算法的有效性。
- 严桂夺陈建超
- 关键词:文本聚类特征向量层次聚类增量聚类
- 基于组合词和同义词集的关键词提取算法被引量:19
- 2010年
- 为了提高关键词的提取准确率,在对现有关键词抽取方法进行研究的基础之上,针对影响关键词提取准确率的分词技术、同义词现象等难点,提出了一种基于组合词和同义词集的关键词提取算法。该算法首先利用组合词识别算法极大地改进分词效果,能识别网页上绝大多数的新词、未登录词,为提高关键词自动抽取准确率奠定了坚实的基础;同时利用构造的同义词集,合并同义词的词频,避免了同义词在输出结果中同现;利用综合评分公式,充分考虑候选关键词的位置、长度、词性等特性。实验数据表明,该方法有较高的提取准确率。
- 蒋昌金彭宏陈建超马千里严桂夺
- 关键词:同义词集中文网页关键词提取
- 基于词序列频率有向网的中文组合词提取算法被引量:6
- 2009年
- 随着人类知识体系的不断拓展和深化,很多组合词(多个词或语素组成的词)被创造出来用于表达新的概念。由于无法及时把组合词收录进词库,分词系统无法识别它们。为此,从文本中提取组合词成为智能计算领域的一个热门的研究方向。借鉴人类的认知心理模式,提出一种基于词序列频率有向网的组合词抽取算法,以识别自由文本中的组合词。算法首先建立描述文本中的词序列出现频率的有向网,然后通过独特的矩阵运算,逐步把组合词提取出来。算法的优点是无须借助专业的语言知识,在实验分析中,算法显示了较好的效果。
- 陈建超郑启伦李庆阳严桂夺
- 关键词:有向图
- 基于全局性确定聚类中心的文本聚类被引量:5
- 2011年
- 文本聚类关键是有效解决特征词向量选择及特征词权重计算方法、文本相似度计算方法、聚类中心确定等三个问题。针对相关算法在三个关键环节上存在的问题,提出了适合自由文本特点的特征词权重计算方法和文本相似度计算方法;在此基础上提出了改进的CBC算法,从全局上自适应地确定文本集中的各个聚类中心。算法在实验中准确地确定了各个聚类中心,并在两个文本集上分别获得88.50%和94.00%的聚类准确率。
- 陈建超胡桂武杨志华严桂夺
- 关键词:文本聚类全局性
- 基于主题聚类的网页目录结构构建方法研究
- 互联网是人们获取信息的重要途径,中国互联网络信息中心(CNNIC)发布的统计数据显示,截至2009年12月31日,我国网民数达到3.84亿人,2009年中国网页数量达到336亿个,年增长率超过100%。随着网络信息的快速...
- 严桂夺
- 关键词:特征提取文本聚类
- 文献传递