清华大学自主科研计划(20111081023)
- 作品数:3 被引量:16H指数:3
- 相关作者:黄永峰王丙坤李星孟聪应励志更多>>
- 相关机构:清华大学更多>>
- 发文基金:清华大学自主科研计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于多粒度计算和多准则融合的情感分类被引量:5
- 2015年
- 随着在线用户生成内容的激增,无监督情感分类方法有着广泛应用前景。现有基于情感词的无监督情感分类方法没有考虑句子类型和句间关系对情感分类的影响,分类效果较差;基于自学习的无监督情感分类方法在生成伪标注数据集时,又会引入较多错误。针对上述问题,该文提出了一种基于多粒度计算和多准则融合的无监督情感分类方法。该方法通过多粒度计算,提高现有基于情感词的无监督情感分类精度;同时通过多准则融合来减少伪标注数据错误率。在3个真实中文数据集上的实验结果表明:与现有无监督情感分类方法相比,该方法平均提高了6.5%的分类精度。
- 王丙坤黄永峰李星
- 关键词:情感分类
- 基于认知度的用户好友社团关系挖掘方法被引量:5
- 2012年
- 如何挖掘网络用户好友的社团关系是社会网络领域研究热点之一。人人网、Facebook等网络的用户好友关系是通过用户注册信息来表征的,但对BBS和微博等网络用户来说,无法采用注册信息来表征好友关系。因此,针对BBS和微博等网络的用户间互动性这一特征,引入了认知度概念来描述用户发帖和回帖互动行为的联系紧密度,在此基础上提出了一种基于用户间认知度的用户好友社团关系挖掘算法;同时提出了一种好友社团关系的可视化呈现方法。该方法可以直观展现BBS用户友好群体分布和用户分类情况。上述方法在水木清华等高校BBS数据集进行了实验和验证。
- 孟聪黄永峰应励志
- 关键词:BBS认知度
- 基于文本和社交语境的微博数据情感分类被引量:7
- 2014年
- 微博数据的情感分析具有重要的应用价值和研究价值,是网络文本挖掘领域的研究热点。微博消息非常短而且稀疏,同时包含大量的不规则词语,噪声很强,给传统的情感分析方法带来了很大的挑战。受社会科学的相关理论的启发,该文尝试利用微博消息的社交语境来帮助解决情感分析所面临的稀疏性强和噪声大的困难。由于文本向量的维度很高,而具有情感倾向的词只占其中较少的一部分,因此将Lasso方法加进LR(logistic regression)模型中以提高模型的鲁棒性。在真实的英文Twitter数据集上的实验结果表明,加入社交语境和模型的稀疏约束能够有效提高微博数据情感分类的准确率。
- 吴方照王丙坤黄永峰
- 关键词:情感分类凸优化