安璐
- 作品数:118 被引量:1,125H指数:20
- 供职机构:武汉大学信息管理学院更多>>
- 发文基金:国家自然科学基金教育部人文社会科学研究重大课题攻关项目国家自然科学基金创新研究群体项目更多>>
- 相关领域:文化科学自动化与计算机技术政治法律经济管理更多>>
- 大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源被引量:13
- 2019年
- [目的/意义]以大数据环境下的文本情感分析这一特定任务为目的,对规模适配问题进行研究,为情报学领域研究人员进行大数据环境下数据分析时,实现效率和成本的最优选择提供借鉴。[方法/过程]采用斯坦福大学Sentiment140数据集,在对传统情感分析算法分析的基础上,提出了5种面向大数据的文本情感分析算法,检验各种算法在不同环境和数据规模下的适配效果,从准确性、可扩展性和效率等方面进行实证比较研究。[结果/结论]实验结果显示,本文所搭建的集群具有良好的运行效率、正确性以及可扩展性,Spark集群在处理海量文本情感分析数据时更具有效率优势,且在数据规模越大的情况下,效率优势越明显;在资源利用方面,随着节点数和核数的增加,集群的整体运行效率变化显著,配置5个4核4G内存的从节点,能够实现在高效完成分类任务的同时达到节约资源成本的效果。
- 余传明原赛王峰安璐
- 关键词:大数据情感分析机器学习算法
- 突发传染病微博影响力的预测研究被引量:8
- 2017年
- 【目的/意义】构建突发传染病微博的影响力预测方法能够辅助管理部门提前发现传染病蔓延的潜在风险与问题,并做好相应准备。【方法/过程】本文利用潜在狄利克雷分配模型(LDA)从微博内容中提取隐含的主题特征,并结合发布者和发布时间特征,构建决策树模型,从而对突发传染病的微博影响力进行预测。【结果/结论】所构建的突发传染病微博的影响力预测方法的精确度达86.5%,发布者与主题特征对突发传染病微博的影响力作用高于发布日期。
- 安璐周思瑶余传明李纲
- 关键词:突发传染病决策树
- 通用关系数据库与模糊数据库的比较研究被引量:5
- 2003年
- 比较了处理精确数据的通用关系数据库与基于关系数据模型的模糊数据库在关系模式、关系操作、数据库语言、概念设计方法、体系结构等方面的异同点。
- 安璐
- 关键词:模糊数据库数据库语言
- 国家安全大数据综合信息集成:应用架构与实现路径被引量:34
- 2018年
- 在总体国家安全观背景下,国家安全管理已成为新形势下维持国家正常运行和社会经济良好发展的重要保障,如何综合开发与利用国家安全大数据成为抢占国家安全战略制高点的关键。本文以物理世界、信息空间和人类社会三元世界所构成的国家安全大数据为研究对象,在把握三元世界在国家安全管理中逻辑关系的基础上,以实现政府安全管理部门原有的基本业务与数据管理的分离为目标,构建三元世界下面向国家安全大数据的综合信息集成应用架构。其核心思想是:通过对物理世界与人类社会中的元素或数据进行泛在协同感知与获取,将其映射到信息空间中实现数据的序化组织、信息融合与整合分析,进而反向指导人类社会与物理世界的决策行为。
- 巴志超李纲安璐毛进
- 关键词:大数据协同感知信息集成
- 新兴主题探测方法及实证研究综述被引量:2
- 2013年
- 新兴主题目前没有明确统一的定义,它表述为近几年来逐渐引起人们兴趣,并被越来越多的学者研究的主题领域,也可以理解为发现某一特定领域中的焦点、热点,并挖掘最新的变化趋势时主动提示的过程。文章对新兴主题的研究主要集中在两点:一是研究主题的探测方法,如分类与聚类、可视化等,二是关于特定学科的新兴主题实证分析,通过总结现有研究中的不足,指出未来研究新兴主题的研究方向。
- 董丽安璐
- 关键词:分析方法
- 恐怖事件情境下微博信息与评论用户的画像及比较被引量:13
- 2020年
- 【目的/意义】构建用户特征指标体系,对恐怖事件情境下微博信息与评论用户进行画像并比较有助于掌握参与恐怖事件讨论用户的特点,加强反恐舆论引导。【方法/过程】以"#巴塞罗那恐怖袭击#"话题下的所有微博及评论数据为例,使用基于相关性的LDA主题模型提取微博主题,从用户特征和文本特征两个角度构建指标体系,并采用两步聚类刻画微博用户特征,分析发布微博用户和评论用户的异同。【结果/结论】以往活跃度、影响力较高的用户在该事件中不一定拥有较高的影响力;原始微博用户的平均等级略低于评论用户,但其在该事件中的影响力高于评论用户;原始微博用户类型多于评论微博用户类型。
- 安璐周亦文
- 关键词:生命周期主题分析恐怖事件
- 基于深度学习的词汇表示模型对比研究被引量:7
- 2020年
- 【目的】系统揭示传统深度表示模型与最新预训练模型的原理,探究其在文本挖掘任务中的效果差异。【方法】采用对比研究法,从模型侧和实验侧分别比较传统模型与最新模型在CR、MR、MPQA、Subj、SST-2和TREC六个数据集上的效果差异。【结果】在六个任务中,XLNet模型取得了最高的平均F1值(0.9186),优于ELMo(0.8090)、BERT(0.8983)、Word2Vec(0.7692)、GloVe(0.7576)和FastText(0.7506)。【局限】由于篇幅限制,实证研究以文本挖掘中的分类任务为主,尚未比较词汇表示学习方法在机器翻译、问答等其他任务中的效果。【结论】传统深度表示学习模型与最新预训练模型在文本挖掘任务中的表现存在较大差异。
- 余传明王曼怡林虹君朱星宇黄婷婷安璐
- 关键词:知识表示文本挖掘
- 多话题竞争情境下网民关注度转移预测模型研究被引量:3
- 2020年
- 【目的/意义】对网民的关注度转移行为进行分析预测,揭示影响网民关注度的关键因素,描述舆情事件之间的竞争机理,以提升政府及企业的舆情应对能力。【方法/过程】以微博为数据源,从用户、时间、话题类别、竞争传播特性等方面选取13个特征,构建基于随机森林算法的网民关注度转移行为预测模型,利用84168条原始微博数据进行实证分析。【结果/结论】预测模型的准确率达到84.5%,能较好地预测微博用户关注度转移行为。对各项特征的重要性和影响力倾向分析发现,在微博用户关注度转移行为中用户特征最为重要,其次是时间特征和竞争程度特征,话题类别特征重要性最低。
- 安璐沈燕
- 关键词:网络舆情
- 公共安全事件衍生舆情形成与演化研究——基于话题与时间序列分析被引量:10
- 2020年
- 基于话题与时间序列分析揭示公共安全事件衍生舆情的形成和演化规律,有助于政府部门预警、研判与治理衍生舆情。以与"长春长生疫苗事件"有关的微博数据为研究样本,通过构建话题发现模型,识别衍生舆情,利用ARIMA时间序列模型来拟合和预测衍生舆情的形成与演化,可以发现:信息不对称现象使得公共安全事件常在蔓延期与衰退期产生衍生舆情,尤其是当原生舆情处理不当,或者是涉及弱势群体、政府官员等争议性话题时;衍生舆情与政府举措、实体遭遇等重要时间节点事件密切相关。因此,有关部门需加强各方沟通,恰当处理原生舆情及应对措施,尤其是在蔓延期与衰退期需提前预防衍生舆情爆发。
- 安璐代园园周亦文
- 关键词:公共安全时间序列分析
- 危机情境下网络反向议程设置的探测及预测
- 2024年
- [目的/意义]反向议程设置探测方法能够动态捕捉危机情境下局部而短暂的反向议程设置效应,反向议程设置的预测模型有助于理解危机信息从公众议程进入媒体议程的过程,能够有效追踪舆情动态并辅助危机报道的选题。[方法/过程]采用滑动时间窗口和格兰杰因果检验,动态探测危机情境下的反向议程设置效应;基于新闻价值和资源动员理论,从内容价值、媒体差异、话语风格、动员举措和成员网络5个方面提出反向议程设置的特征体系,采用逻辑回归、朴素贝叶斯、支持向量机、CART决策树和XGBoost训练反向议程设置预测模型,使用XGBoost解释特征重要性排序,利用SHAP解释特征影响。[结果/结论]公众议程与媒体议程的领先关系随着危机议题的发展动态变化,媒体议程影响公众议程的速度高于公众议程影响媒体议程的速度。危机情境下基于XGBoost的反向议程设置预测模型效果最好,准确率达到91.04%,F1值达到90.80%,AUC值达到96.58%;内容价值、媒体差异特征对预测结果重要性最高。
- 张丽安璐阮雪琴
- 关键词:危机情境格兰杰因果分析