河南省基础与前沿技术研究计划项目(112300410007)
- 作品数:6 被引量:61H指数:3
- 相关作者:李保利杨星金明举徐振强杨文敏更多>>
- 相关机构:河南工业大学更多>>
- 发文基金:河南省基础与前沿技术研究计划项目国家重点实验室开放基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于LDA模型的研究领域热点及趋势分析被引量:13
- 2012年
- 随着研究的不断深入以及信息传播手段的进步,与某个研究领域相关的科学文献越来越多,也越来越容易得到,然而要阅读和分析这些数以千计的文献,仅凭人力已经难于实现对该领域研究重点、研究热点以及趋势进行全面系统地分析。鉴于此,提出一种基于LDA模型对某研究领域在一定时期内的热点及趋势进行自动识别的方法。该方法利用Gibbs抽样计算模型参数,获取领域热点主题以及热点词语,通过按时间后离散的主题演化方法分析热点主题在时间轴上的强度演化。以中文信息处理领域为例,通过对《中文信息学报》2001—2010十年间发表的学术论文进行分析,自动获取中文信息处理领域十年内的研究热点以及热点主题在时间轴上的演化趋势。实验结果初步证明了该方法的有效性。
- 杨星李保利金明举
- 关键词:LDA模型GIBBS抽样
- 结合词语分布信息的TFIDF关键词抽取方法研究被引量:2
- 2014年
- 介绍了关键词抽取的相关工作,并对基于TFIDF的关键词抽取算法进行了分析。结合词语在文本中的分布均衡程度和首次出现位置等特征,提出了一种改进的TFIDF算法,并给出了相应的计算公式。在文档数量和文档平均长度不同的3个语料上进行了对比实验。实验结果表明,结合词语分布信息的TFIDF关键词抽取方法是可行和有效的。
- 徐振强李保利
- 关键词:抽取TFIDF自动标引
- 基于类别层次结构的多层文本分类样本扩展策略被引量:17
- 2015年
- 针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系,从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上,基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7139,在10个参赛系统中位列第二。
- 李保利
- 基于LDA模型的科技文献话题演化分析
- 2014年
- 本文提出了一种通过追踪不同时间片内话题的变化趋势进行话题演化分析的方法,该方法首先利用LDA话题模型抽取科技文献的话题,然后对语义意义不明确的话题进行话题过滤,最后通过计算话题的强度和关联度来分析话题的演化趋势。本文对《计算机学报》论文集进行实验,实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,且具有良好的效果。
- 袁胜文
- 关键词:LDA模型
- 自然语言文本中不确定性信息的自动识别被引量:1
- 2015年
- 自然语言中存在大量不确定的表述,针对此类信息的检测任务是信息抽取领域的研究热点之一,然而,面向中文的不确定信息检测研究仍然比较匮乏,利用支持向量机(Support Vector Machine,SVM)能够很好的解决非线性、高维数、局部小样本等实际问题的优势,将中文不确定性信息识别问题转化为分类问题,通过在复旦大学发布的中文不确定性检测数据集语料上的实验,验证了本文提出的基于SVM的中文不确性信息检测方法的有效性,相比于句子评分模型,我们的系统取得了更好的召回率.
- 杨文敏李保利
- 关键词:支持向量机语料
- 基于LDA模型和话题过滤的研究主题演化分析被引量:29
- 2012年
- 针对目前科学技术文献数量激增、难以从总体上分析把握的现状,提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法.该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取,得到不同数量的话题.然后,通过话题过滤剔除意义有限的话题,并借助简单启发式规则选择种子话题.最后,再利用语义相关度将相邻时间片内内容相近的种子话题联系起来,以得到研究主题的演化趋势.实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,避免了无意义话题对研究主题演化的负面影响.
- 李保利杨星
- 关键词:LDA模型