侯佳林
- 作品数:3 被引量:14H指数:3
- 供职机构:西南交通大学信息科学与技术学院更多>>
- 发文基金:国家自然科学基金国家软科学研究计划教育部科学技术研究重点项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于异常检测模型的异构环境下MapReduce性能优化被引量:3
- 2015年
- 针对"落伍者"的选择问题,提出利用故障诊断领域内通常使用的异常检测模型来选择"落伍者"的方法。首先,利用异常检测算法来发现集群中的"慢节点";然后改进MapReduce任务分配算法和推测执行算法,不再给"慢节点"分配任务并将"慢节点"中的任务分配至有空闲任务槽的正常节点中。在改进的推测执行算法中,因相同网段内的节点通常物理邻近,可提高数据传输速度,首次将"慢节点"中的任务分配至同网段的正常节点中,以便数据传输。实例验证结果表明,使用异常检测算法后可迅速检测出异常节点,且与Hadoop-LATE算法相比,处理相同任务量可缩短集群17%的任务处理时间,说明所提算法在集群整体性能优化中表现优异。
- 侯佳林王佳君聂洪玉
- 关键词:异常检测异构环境
- 深度学习算法在藏文情感分析中的应用研究被引量:7
- 2017年
- 针对以往进行藏文情感分析时算法忽略藏文语句结构、词序等重要信息而导致结果准确率较低的问题,将深度学习领域内的递归自编码算法引入藏文情感分析中,以更深层次提取语义情感信息。将藏文分词后,用词向量表示词语,则藏文语句变为由词向量组成的矩阵;利用无监督递归自编码算法对该矩阵向量化,此时获得的最佳藏文语句向量编码融合了语义、语序等重要信息;利用藏文语句向量和其对应的情感标签,有监督地训练输出层分类器以预测藏文语句的情感倾向。在实例验证部分,探讨了不同向量维度、重构误差系数及语料库大小对算法准确度的影响,并分析了语料库大小和模型训练时间之间的关系,指出若要快速完成模型的训练,可适当减小数据集语句条数。实例验证表明,在最佳参数组合下,所提算法准确度比传统机器学习算法中性能较好的语义空间模型高约8.6%。
- 普次仁侯佳林刘月翟东海
- 关键词:情感分析递归神经网络
- 基于深度学习的文本情感分析并行化算法被引量:4
- 2019年
- 在训练集和测试集数据量大的情况下,半监督递归自编码(semi-supervised recursive auto encoder,Semi-Supervised RAE)文本情感分析模型会出现网络训练速度缓慢和模型的测试结果输出速率缓慢等问题.因此,提出采用并行化处理框架,在大训练集情况下,基于“分而治之”的方法,先将数据集进行分块划分并将各个数据块输入 Map 节点计算每个数据块的误差,利用缓冲区汇总所有的块误差,Reduce 节点从缓冲区读取这些块误差以计算优化目标函数;然后,调用 L-BFGS (limited-memory Broyden-Fletcher-Goldfarb-Shanno)算法调整参数,更新后的参数集再次加载到模型中,重复以上训练步骤逐步优化目标函数直至收敛,从而得到最优参数集;在测试集大的情况下,模型的初始化参数为上述步骤得到的参数集,Map 节点对各句子进行编码得到其向量表示,然后暂存在缓冲区中;最后,在 Reduce 节点中分类器利用各语句的向量表示计算各自语句的情感标签.实例验证表明:在标准语料库 MR (movie review)下本文算法精确度为 77.0%,与原始算法的精确度(77.3%)几乎相同;在大数据量训练集下,训练时间在一定程度上随着计算节点的增加而大量减少.
- 翟东海侯佳林刘月
- 关键词:文本情感分析并行计算