郭跇秀
- 作品数:5 被引量:50H指数:3
- 供职机构:北京信息科技大学更多>>
- 发文基金:北京市教委科技发展计划国家自然科学基金国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术医药卫生更多>>
- 中文微博突发事件检测研究被引量:24
- 2013年
- 从微博中准确而高效地挖掘出突发事件是近年来的研究热点。通过词频统计、词增长率计算和TF-PDF算法抽取突发词集,使用突发词表示文本并结合微博突发事件的描述特征进行文本过滤;提出一种"绝对聚类"算法,对描述突发事件的文本进行聚类,并通过微博的回复数和转发数加权计算热度,检测各类事件中热度最大的作为突发事件。检测准确率为92.60%,召回率为85.51%,F值为0.89。实验结果表明,相比于传统的突发事件检测方法,该方法能够比较准确地检测到微博中的突发事件,有一定的应用价值。
- 王勇肖诗斌郭跇秀吕学强
- 关键词:突发事件文本过滤
- 广告型微博的识别方法被引量:3
- 2014年
- 微博空间内充斥着大量广告信息,这些广告信息对舆情分析造成了极不利的影响.分析广告型微博特点,提出了一种广告型微博识别方法:在传统文本特征的基础上,引入"非活跃期微博数"、"微博重复度"、"特征词对权重"三类特征,并结合支持向量机模型对微博文本进行分类,识别广告微博发布者;分析广告微博发布者与普通用户的差异,提取广告微博发布者的"主题"特征,并面向用户对微博文本进行过滤,实现对广告型微博的识别.实验结果正确率为87.6%,召回率为97.2%,F值为91.6%,证明该方法能高效准确地识别广告型微博.
- 郭跇秀吕学强李卓
- 关键词:支持向量机文本过滤主题
- 中文微博突发事件及其发布源检测
- 郭跇秀
- 基于突发词聚类的微博突发事件检测方法被引量:33
- 2014年
- 微博突发事件检测是网络舆情分析的重要分支,近年来已受到国内外学者的广泛关注。分析用户行为特征,提出一种用户影响力计算方法,并将其与微博文本特征、传播特征相结合,提出词语突发度概念作为突发词的判定标准,进而抽取突发词集;引入凝聚式层次聚类算法,对突发词集进行聚类,并筛选出合适的突发词类簇用以描述突发事件,从而实现微博突发事件检测。通过实验检测,结果是正确率为63.64%,召回率为87.5%,F值为0.74,表明该方法可以在大量微博数据中有效检测到突发事件。
- 郭跇秀吕学强李卓
- 关键词:突发事件聚类
- 基于微博转发集的微博过滤研究被引量:3
- 2013年
- 针对微博文本的特点,提出了基于微博转发集的过滤方法。借助微博转发集,构建<子串,频次,转发时间差>三元组,形成用户需求模板;以知网为知识源计算微博文本与用户需求模板的相似度,抽取用户感兴趣的内容形成候选文本集;根据提出的基于三元组的微博权重计算方法,对候选集做进一步筛选,最终得到用户需求的微博文本。实验结果表明,基于微博转发集的过滤方法在滤准率和滤全率2个指标上比基于关键词与KNN的方法有了显著的提高。
- 孙建旺吕学强郭跇秀
- 关键词:三元组相似度