公共文化服务平台

基于SVM和CRF多特征组合的微博情感分析被引量：82: 2015年; 近年来,文本的情感分析一直都是自然语言处理领域所研究的热点问题;微博作为一种短文本,用词精炼而简洁,富含观点、倾向和态度。因此,识别微博的情感倾向具有重要的现实意义。提出一种基于SVM和CRF的情感分析方法,使用多种文本特征,包括词、词性、情感词、否定词、程度副词和特殊符号等,并选用不同的特征组合,通过多组实验使情感分析效果最优。实验显示,选用词性、情感词和否定词的特征组合时,SVM模型的正确率达到88.72%,选用情感词、否定词、程度副词和特殊符号的特征组合时,CRF模型的正确率达到90.44%。; 李婷婷姬东鸿; 关键词：情感分析支持向量机条件随机场

基于短文本隐含语义特征的文本蕴涵识别被引量：3: 2016年; 该文采用基于短文本隐含空间语义特征改进文本蕴涵识别,该方法通过构造句子的隐含变量模型,并融合基于该模型的句子之间相似度特征,和词汇重叠度、N元语法重叠度、余弦相似度等字符串特征,以及带标记和未标记的子树重叠度句法特征一起利用SVM进行分类。基于该分类算法,我们对RTE-8任务进行了测试,实验表明短文本的隐含语义特征可有效改进文本蕴涵关系识别。; 张晗盛雅琦吕晨姬东鸿; 关键词：支持向量机

基于无监督学习算法的推特文本规范化被引量：1: 2016年; 推特文本中包含着大量的非标准词,这些非标准词是由人们有意或无意而创造的。对很多自然语言处理的任务而言,预先对推特文本进行规范化处理是很有必要的。针对已有的规范化系统性能较差的问题,提出一种创新的无监督文本规范化系统。首先,使用构造的标准词典来判断当前的推特是否需要标准化。然后,对推特中的非标准词会根据其特征来考虑进行一对一还是一对多规范化;对于需要一对多的非标准词,通过前向和后向搜索算法,计算出所有可能的多词组合。其次,对于多词组合中的非规范化词,基于二部图随机游走和误拼检查,来产生合适的候选。最后,使用基于上下文的语言模型来得到最合适的标准词。所提算法在数据集上获得86.4%的F值,超过当前最好的基于图的随机游走算法10个百分点。; 邓加原姬东鸿费超群任亚峰; 关键词：无监督学习二部图随机游走拼写检查

基于LDA特征扩展的短文本分类被引量：49: 2015年; 针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用SVM分类方法进行短文本的分类。实验表明,该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充LDA特征信息的方法是切实可行的。; 吕超镇姬东鸿吴飞飞; 关键词：文本分类支持向量机

基于半监督学习算法的虚假评论识别研究被引量：15: 2014年; 已有的虚假评论识别方法主要采用启发式策略或简单特征建模。针对这些方法的不足,提出使用机器学习方法识别虚假评论。首先整合计算语言学与心理语言学的知识对评论文本进行建模,使用全监督学习算法来评价不同特征建模的性能,选出最好的特征组合。为了提高识别性能,设计2种半监督学习算法充分利用大量的未标注文本。实验结果证实所提算法超过当前的基准。; 任亚峰姬东鸿尹兰; 关键词：半监督学习计算语言学

基于LDA和CTR的用户模型分析被引量：1: 2016年; 个性化服务一直是研究的热点,但是如何构建完整的用户模型是一个颇有挑战性的问题。将基于主体模型LDA对用户模型进行预测,在用户和推荐项目的特征向量上采用CTR进行约束,使结果更为准确。在只需要少量人为因素下,由机器来训练最初的主题模型,在训练模型的基础上,通过选取100名用户的微博作为测试,用等级打分制来对推荐的项目进行打分,最终的结果显示,在新闻推荐上,微观满意度达到82.5%;而在名人推荐上,微观满意度达到了84.3%,综合以上,推荐服务的满意度还是令人满意的。; 吴飞飞姬东鸿吕超镇; 关键词：主题模型用户模型

Automatic Ontology Construction Based on Clustering Nucleus被引量：3: 2015年; Ontology construction is the core task of ontology-based knowledge representation. This paper explores a semantic description approach based on primitive structure, which benefits ontological relation description in a more precise and concrete way. In view of primitive structure, this paper introduces an approach to extract primitive structures of words based on a multi-label learning model, correlated label propagation. Also, this paper proposes an approach to recognize clustering nucleuses in word clusters heuristically. By this approach, more precise ontological relations are able to be discovered automatically.; ZHAO LingREN HanWAN Jing

BioTSA: Annotating Token Semantic Association to Support Biomedical Text Mining被引量：2: 2015年; Corpus is a kind of important resource for knowledge acquisition in the natural language processing （NLP）. However, up to now, in the biomedical domain comparatively fewer corpus focus on semantic association among all tokens in a sentence. We proposed an annotation scheme based on feature structure theory for enriching biomedical domain corpora with token semantic association （TSA）. There are 227 documents of the BioNLP GE ST training data annotated to form TSA corpus in which each annotated item shows a token semantic association that appears as a triple. The annotation of token semantic association has the potential to significantly advance biomedical text mining by providing rich token semantic information for NLP systems especially for the sophisticated IE systems, such as bio-event extraction.; WEI XiaomeiHUANG SixingCHEN BoJI Donghong; 关键词：ANNOTATION TRIPLE

基于图模型和多分类器的微博情感倾向性分析被引量：9: 2015年; 为研究情感词对情感倾向分析的作用,提高微博情感分析性能,提出一种情感词图模型的方法,利用PageRank算法计算出情感词的褒贬权值,将其作为条件随机场模型的特征,预测具体语言环境下的情感词倾向。结合具体语境下的情感词倾向,利用支持向量机模型进行微博语料的主客观分类和情感倾向分类。实验结果表明,图模型构造的情感词典增加了具体语境下情感词倾向预测的准确性,具体语境下的情感词倾向预测对主客观分类和情感倾向分类有明显的改善。; 黄挺姬东鸿; 关键词：图模型条件随机场支持向量机网页排序算法

基于带权文本矩阵分解-信息熵模型的新闻评论摘要: 2014年; 针对新闻的评论摘要的抽取问题,提出了一种将带权文本矩阵分解(WTMF)与信息熵结合的社交媒体评论自动抽取方法。该方法对微博(tweets)和news信息构建基于异质图的WTMF模型,解决短文本特征稀疏问题,保障信息的相似性;根据tweet的特征分布,构建基于特征的二元信息熵和连续信息熵,保证信息的多样性。最后依据子模属性,设计基于贪心的抽样算法,获取优化问题近似最优解。实验结果表明,WTMF与信息熵结合的方法能有效提高社交媒体摘要性评论抽取的性能,在ROUGE2上召回率和F1值分别达到0.40074和0.27330。与潜在狄利克雷分配(LDA)扩展模型——基于位的主体模型(BTM)相比,分别提高了0.05和0.03,有效地提高了新闻评论摘要质量。; 国玉静姬东鸿; 关键词：信息熵

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(61173062)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(61173062)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈