国家教育部博士点基金(2012351410010)
- 作品数:14 被引量:52H指数:5
- 相关作者:廖祥文陈国龙魏晶晶刘月程学旗更多>>
- 相关机构:福州大学福建江夏学院中国科学院更多>>
- 发文基金:国家教育部博士点基金国家自然科学基金福建省科技重大专项更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 结合主动学习的多记录网页属性抽取方法被引量:1
- 2016年
- 属性抽取可分为对齐和语义标注两个过程,现有对齐方法中部分含有相同标签不同语义的属性会错分到同一个组,而且为了提高语义标注的精度,通常需要大量的人工标注训练集.为此,文中提出结合主动学习的多记录网页属性抽取方法.针对属性错分问题,引入属性的浅层语义,减少相同标签语义不一致的影响.在语义标注阶段,基于网页的文本、视觉和全局特征,采用基于主动学习的SVM分类方法获得带有语义的结构化数据.同时在主动学习的策略选择方面,通过引入样本整体信息,构建基于不确定性度量的策略,选择语义分类预测不准的样本进行标注.实验表明,在论坛、微博等多个数据集上,相比现有方法,文中方法抽取效果更好.
- 魏晶晶廖祥文陈巧灵马飞翔陈国龙
- 关键词:属性抽取语义分类
- 张量分解在用户影响力度量中的应用被引量:2
- 2016年
- 提出一种基于张量分解的有影响力用户识别算法.该算法首先构建基于查询主题的用户交互关系张量,接着利用张量分解算法对用户行为进行预测,最后融合各种交互关系和用户的主题信息给出用户影响力的综合评判.实验结果表明,与非负矩阵分解相比,张量分解的挖掘精度提升了约10%,而与PageRank相比,张量分解的挖掘精度提升了约20%.
- 唐昌宏刘月
- 关键词:主题相关度
- 基于知识图谱的文本观点检索方法被引量:10
- 2016年
- 文本观点检索旨在检索出与查询主题相关并且表达用户对主题观点的文档。由于用户查询时输入通常很短,难以准确表示查询的信息需求。知识图谱是结构化的语义知识库,通过知识图谱中的知识有助于理解用户的信息需求。因此,提出了一种基于知识图谱的文本观点检索方法。首先由知识图谱获取候选查询扩展词,并计算每个候选词扩展词分布、共现频率、邻近关系、文档集频率,然后利用4类特征通过SVM分类得到扩展词,最后利用扩展词对产生式观点检索模型进行扩展,实现对查询的观点检索。实验表明,在微博和推特两个数据集上,与基准工作对比,所提出的方法在MAP、NDCG等评价指标上均有显著的提升。
- 马飞翔廖祥文於志勇吴运兵陈国龙
- 关键词:知识图谱查询扩展
- 基于评论关系图的垃圾评论者检测研究被引量:3
- 2015年
- 提出一种基于评论关系图的产品垃圾评论者检测方法.该方法考虑了评论者、评论、商店以及回复者之间的关系,构造出四者的评论关系图,根据评论真实度获得评论者的可信度,从而检测出产品垃圾评论者.实验结果表明,与未考虑可信回复者特征的识别方法相比,本文方法的准确率提升了4%.
- 林秀娇魏晶晶刘月廖祥文
- 基于受限非负张量分解的用户社会影响力分析被引量:2
- 2016年
- 针对传统社会影响力分析方法未能充分考虑观点和话题信息等问题,提出了一种基于受限非负张量分解的用户社会影响力分析方法。首先把社交媒介用户相互评论关系自然地表示成三阶张量,然后通过拉普拉斯话题约束矩阵控制张量分解过程,最后根据分解得到的潜在因子度量用户观点社会影响力。该方法的优点是能有效地从受限张量分解结果中检索出给定话题下用户的社会影响力,同时保持其社会影响力的极性分布。实验结果表明,该方法的性能优于OOLAM和Twitter Rank等基准算法。
- 魏晶晶陈畅廖祥文陈国龙程学旗
- 关键词:社会影响力张量分析
- 基于评论者关系的垃圾评论者识别研究被引量:3
- 2016年
- 垃圾评论者在很大程度上误导潜在消费者和观点挖掘系统。目前检测垃圾评论者的方法主要是基于评论、评论者和商店之间的关系,忽略了评论者之间的关系。针对上述问题,提出了基于评论者多边图的产品垃圾评论者检测方法。首先,以每个评论者为节点,评论者之间的关系为边,构建评论者之间的关系图模型;其次,根据多边图模型,提出了一种基于PageRank的评论者互评估可信度模型来检测垃圾评论者;最后,采用卓越亚马逊和Resellerrating.com平台上的数据进行验证。结果表明:该模型能够更有效地识别出垃圾评论者,在一定程度上解决了难识别仅发表一条评论的评论者的可信度问题。
- 徐小婷魏晶晶廖祥文刘月陈水利
- 基于词对齐模型的中文评价对象与评价词抽取被引量:4
- 2016年
- 提出一种基于统计机器翻译的思想抽取评价对象与评价词的方法。该方法利用词对齐模型抽取评价对象与评价词之间的关系,并结合词共现信息等特征来估计两者关系的强度。建立一张二分图刻画评价关系,并加入领域相关性度量,利用随机游走算法迭代计算候选评价对象与评价词的置信度。在COAE2011任务3的语料上进行试验验证。结果表明,利用词对齐模型抽取评价对象与评价词可以有效提高准确度,抽取出更多的评价对象与评价词。
- 陈兴俊魏晶晶廖祥文简思远陈国龙
- 关键词:评价对象抽取
- 融合用户观点的社会影响力分析
- 2017年
- 社交媒介已经成为了一种分享交换信息的重要平台,识别出其中影响力高的用户已经广泛地应用于推荐系统、专家识别、广告投放等应用。该文提出了一种受限张量分解方法,其能识别出给定主题下影响力高的用户,同时保持其影响力的极性分布(例如正面、中性、负面)。该方法通过拉普拉斯矩阵引入用户主题相似性约束,控制张量分解过程,使用分解结果计算用户影响力得分。实验结果表明,该方法在社会影响力分析中的性能优于OOLAM、TwitterRank等基准算法,并具有良好的可扩展性。
- 陈畅魏晶晶廖祥文林柏钢陈国龙
- 关键词:张量分解拉普拉斯矩阵
- Twitter中的情绪传染现象被引量:5
- 2016年
- 在Twitter中是否存在情绪传染现象是社会科学中一个待解决的问题。首先通过LIWC2007获取了包含106 641个用户的Tw itter社交网络中所有用户的情绪时间序列,然后采用一系列的单位根检验证明了相关时间序列的平稳性,通过格兰杰因果检验,在预测用户情绪值的回归式中加入了用户关注好友过去时间的情绪值作为自变量,并采用统计假设检验的方法证明了该自变量的系数不为0,从而说明了用户的情绪会显著地被其关注好友过去的情绪所影响,即用户关注好友的情绪是用户情绪的格兰杰原因。用同样的方法证明了用户情绪并不是用户关注好友情绪的格兰杰原因,由于社交选择现象是一种双向关系,所以该结果是由情绪传染现象造成的。此外,通过统计分析发现Twitter中绝大部分单向关注好友都是非熟人,而绝大部分双向关注好友都是熟人。格兰杰因果检验的结果说明了人们的情绪既会被熟人的情绪所传染,也会被非熟人的情绪所传染。
- 张少群魏晶晶廖祥文简思远陈国龙
- 关键词:TWITTER社交网络格兰杰因果检验
- 基于卷积神经网络的中文微博观点分类被引量:12
- 2016年
- 针对现有中文微博观点分类方法对上下文利用不足、数据表示稀疏和特征依赖于人工设计等问题,提出基于卷积神经网络的中文微博观点分类方法.首先利用交互上下文扩充不同主题下的微博内容,使用低维密集向量初始化微博文本.然后构造卷积神经网络模型,实现特征抽取和组合.最后基于softmax分类函数估计中文微博观点类别.实验表明,相比基准方法,文中方法在精确度和F1值上的效果更好.
- 廖祥文张丽瑶宋志刚程学旗陈国龙
- 关键词:卷积神经网络