您的位置: 专家智库 > >

郭跇秀

作品数:5 被引量:50H指数:3
供职机构:北京信息科技大学更多>>
发文基金:北京市教委科技发展计划国家自然科学基金国家科技支撑计划更多>>
相关领域:自动化与计算机技术医药卫生更多>>

文献类型

  • 4篇期刊文章
  • 1篇学位论文

领域

  • 5篇自动化与计算...
  • 1篇医药卫生

主题

  • 3篇突发事件
  • 2篇中文
  • 2篇文本过滤
  • 2篇聚类
  • 1篇元组
  • 1篇支持向量
  • 1篇支持向量机
  • 1篇三元组
  • 1篇识别方法
  • 1篇主题
  • 1篇转发
  • 1篇相似度
  • 1篇向量
  • 1篇向量机
  • 1篇词聚类

机构

  • 5篇北京信息科技...
  • 1篇北京拓尔思信...

作者

  • 5篇郭跇秀
  • 4篇吕学强
  • 2篇李卓
  • 1篇肖诗斌
  • 1篇王勇
  • 1篇孙建旺

传媒

  • 1篇计算机应用
  • 1篇小型微型计算...
  • 1篇现代图书情报...
  • 1篇北京信息科技...

年份

  • 2篇2014
  • 3篇2013
5 条 记 录,以下是 1-5
排序方式:
中文微博突发事件检测研究被引量:24
2013年
从微博中准确而高效地挖掘出突发事件是近年来的研究热点。通过词频统计、词增长率计算和TF-PDF算法抽取突发词集,使用突发词表示文本并结合微博突发事件的描述特征进行文本过滤;提出一种"绝对聚类"算法,对描述突发事件的文本进行聚类,并通过微博的回复数和转发数加权计算热度,检测各类事件中热度最大的作为突发事件。检测准确率为92.60%,召回率为85.51%,F值为0.89。实验结果表明,相比于传统的突发事件检测方法,该方法能够比较准确地检测到微博中的突发事件,有一定的应用价值。
王勇肖诗斌郭跇秀吕学强
关键词:突发事件文本过滤
广告型微博的识别方法被引量:3
2014年
微博空间内充斥着大量广告信息,这些广告信息对舆情分析造成了极不利的影响.分析广告型微博特点,提出了一种广告型微博识别方法:在传统文本特征的基础上,引入"非活跃期微博数"、"微博重复度"、"特征词对权重"三类特征,并结合支持向量机模型对微博文本进行分类,识别广告微博发布者;分析广告微博发布者与普通用户的差异,提取广告微博发布者的"主题"特征,并面向用户对微博文本进行过滤,实现对广告型微博的识别.实验结果正确率为87.6%,召回率为97.2%,F值为91.6%,证明该方法能高效准确地识别广告型微博.
郭跇秀吕学强李卓
关键词:支持向量机文本过滤主题
中文微博突发事件及其发布源检测
郭跇秀
基于突发词聚类的微博突发事件检测方法被引量:33
2014年
微博突发事件检测是网络舆情分析的重要分支,近年来已受到国内外学者的广泛关注。分析用户行为特征,提出一种用户影响力计算方法,并将其与微博文本特征、传播特征相结合,提出词语突发度概念作为突发词的判定标准,进而抽取突发词集;引入凝聚式层次聚类算法,对突发词集进行聚类,并筛选出合适的突发词类簇用以描述突发事件,从而实现微博突发事件检测。通过实验检测,结果是正确率为63.64%,召回率为87.5%,F值为0.74,表明该方法可以在大量微博数据中有效检测到突发事件。
郭跇秀吕学强李卓
关键词:突发事件聚类
基于微博转发集的微博过滤研究被引量:3
2013年
针对微博文本的特点,提出了基于微博转发集的过滤方法。借助微博转发集,构建<子串,频次,转发时间差>三元组,形成用户需求模板;以知网为知识源计算微博文本与用户需求模板的相似度,抽取用户感兴趣的内容形成候选文本集;根据提出的基于三元组的微博权重计算方法,对候选集做进一步筛选,最终得到用户需求的微博文本。实验结果表明,基于微博转发集的过滤方法在滤准率和滤全率2个指标上比基于关键词与KNN的方法有了显著的提高。
孙建旺吕学强郭跇秀
关键词:三元组相似度
共1页<1>
聚类工具0