杨定达
- 作品数:23 被引量:27H指数:3
- 供职机构:福州大学更多>>
- 发文基金:国家自然科学基金福建省自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 针对中文微博的观点分析原型系统
- 本发明涉及一种针对中文微博的观点分析原型系统。包括:一中文微博数据预处理模块,用于将不同用户在不同话题下发表的微博及其评论文本进行对话序列级联、中文分词,得到词向量字典;一一致性挖掘模块,对用户‑观点、话题‑观点、用户‑...
- 廖祥文陈国龙张丽瑶杨定达
- 文献传递
- 一种针对视角级文本的情感分类系统
- 本发明涉及一种针对视角级文本的情感分类系统。包括文本数据预处理模块,用于得到词向量字典;特征抽取模块,卷积记忆网络模型用于构建视角相关的注意力,抽取出视角相关的特征,并根据误差不断更新参数;分类结果输出模块,用分类函数得...
- 廖祥文陈国龙谢媛媛杨定达
- 文献传递
- 基于分层注意力网络的社交媒体谣言检测被引量:15
- 2018年
- 在社交媒体谣言检测问题上,现有的基于特征表示学习的研究工作大多数先把微博事件划分为若干个时间段,再对每个时间段提取文本向量表示、全局用户特征等,忽略了时间段内各微博间的时序信息,且未利用到在传统机器学习方法中已取得较好效果的文本潜在信息和局部用户信息,导致性能较低.因此,本文提出了一种基于分层注意力网络的社交媒体谣言检测方法.该方法首先将微博事件按照时间段进行分割,并输入带有注意力机制的双向GRU网络,获取时间段内微博序列的隐层表示,以刻画时间段内微博间的时序信息;然后将每个时间段内的微博视为一个整体,提取文本潜在特征和局部用户特征,并与微博序列的隐层表示相连接,以融入文本潜在信息和局部用户信息;最后通过带有注意力机制的双向GRU网络,得到时间段序列的隐层表示,进而对微博事件进行分类.实验采用了新浪微博数据集和Twitter数据集,实验结果表明,与目前最好的基准方法相比,该方法在新浪微博数据集和Twitter数据集上正确率分别提高了1.5%和1.4%,很好地验证了该方法在社交媒体谣言检测问题上的有效性.
- 廖祥文黄知杨定达杨定达陈国龙
- 关键词:社交媒体
- 一种融合用户时间信息的微博客用户影响力排名方法
- 本发明涉及一种融合用户时间信息的微博客用户影响力排名方法,包括步骤:(1)对微博客用户进行特征化处理;(2)根据微博客用户特征对所有用户集进行聚类,得到微博客中的潜在有影响力用户集;(3)对潜在有影响力用户集构建特定话题...
- 廖祥文陈国龙张凌鹰杨定达
- 文献传递
- 一种基于多类特征融合的新兴热点话题检测系统
- 本发明涉及一种基于多类特征融合的新兴热点话题检测系统,包括:数据预处理模块,用于对微博文本进行预处理;分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM网络,训练输入的微博文本;词序列编码层,用于对句子中...
- 廖祥文陈国龙殷明刚杨定达
- 文献传递
- 基于网页内容相似度改进算法的主题网络爬虫被引量:6
- 2011年
- 主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息。本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法。实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%。
- 魏晶晶杨定达廖祥文
- 关键词:搜索引擎主题网络爬虫相似度向量空间模型HTML标签
- 一种基于注意力机制的新兴热点话题检测系统
- 本发明涉及一种基于注意力机制的新兴热点话题检测系统,包括:数据预处理模块、分层序列模型、词序列编码层、词语级别注意力层、句子级别编码层、句子级别注意力层、话题预测模块。本发明提出的一种基于注意力机制的新兴热点话题检测系统...
- 廖祥文陈国龙殷明刚杨定达
- 文献传递
- 基于话题簇动量模型的新兴热点话题检测系统及方法
- 本发明提出一种针对社交媒体的动量模型的新兴热点话题检测系统及方法。该系统包括:一增量聚类算法,在于聚类出各个热点话题,为加速后面的人工标注过程;一正态分布累积概率求解,在于刻画话题的质量模型;一话题增长率求解过程,在于求...
- 廖祥文陈国龙黄海平杨定达
- 文献传递
- 基于双层堆叠分类模型的水军评论检测被引量:2
- 2019年
- 对于水军评论检测问题,已有方法在提取用户行为关系以及通过神经网络提取特征时复杂度过大,同时由于网络评论属于短文本类,其书写的不规范会导致训练过程中文本特征提取困难;另外,已有方法对数据集不平衡分布情况考虑不足。为此,提出了一种基于双层堆叠分类模型的水军评论检测方法。首先通过三元组形式构造矩阵表示用户间关系,并通过主成分分析得到低维用户关系表示,以此刻画用户在评论数据中的行为差异并且降低计算的复杂度;然后,通过评论的段落向量表示以及计算离散型特征(包括文本相似度、信息熵等)解决文本特征难以提取的问题;最后将三者相联结作为融合文本与行为特征的整体特征表示。利用集成学习的方法构造双层堆叠分类模型对评论分类,以提升模型在非平衡数据集下的检测性能。实验采用Yelp2013评论数据集,结果表明,与目前最好的基准方法对比,F1值提高了1.7%~5.2%,在非平衡数据集中提升尤为明显。
- 廖祥文徐阳魏晶晶魏晶晶杨定达
- 关键词:主成分分析
- 一种基于话题多样性的文本数据观点摘要挖掘方法
- 本发明提供一种基于话题多样性的文本数据观点摘要挖掘方法,其包括以下步骤:步骤S1:对话题文本进行预处理;步骤S2:输入话题语料集和背景语料集;步骤S3:提取话题语料集的话题属性;步骤S4:将得到的话题属性添加情感极性,用...
- 廖祥文陈国龙赵楠杨定达