李亚军
- 作品数:5 被引量:28H指数:3
- 供职机构:天津科技大学计算机科学与信息工程学院更多>>
- 发文基金:天津市科技计划天津市应用基础与前沿技术研究计划更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 一种基于卷积自编码器的文档聚类模型
- 2018年
- 文档聚类是将文档集自动归成若干类别的过程,是对文本信息进行分类的有效方式。为了解决半结构化的文本数据转化为结构化数据时出现的数据高维性问题,本文提出了一种卷积自编码器的文档聚类模型CASC,利用卷积神经网络和自编码器的特征提取能力,在尽可能保留原始数据内部结构的同时,将其嵌入到低维潜在空间,然后使用谱聚类算法进行聚类。实验表明,CASC模型在保证聚类准确率不降低的前提下减少了算法运行时间,同时也降低了算法时间复杂度。
- 冯永强李亚军
- 关键词:聚类卷积神经网络
- 基于Wasserstein GAN的文档表示模型被引量:1
- 2019年
- 文档表示模型可以将非结构化的文本数据转化为结构化数据,是多种自然语言处理任务的基础,而目前基于词的模型在文档表示任务中有着无法直接表示文档的缺陷。针对此问题,基于生成对抗网络GAN可以使用两个神经网络进行对抗学习,从而很好地学习到原始数据分布的特点,提出了文档表示模型WADM,使用去噪自编码器作为其判别网络,由其隐层直接得到文档的分布表示。实验表明,WADM能够准确抽取文档特征,相比基于词的模型具有更强的文档表示能力。
- 马永军李亚军汪睿陈海山
- 关键词:神经网络
- 利用聚类分析和离群点检测的数据填补方法被引量:10
- 2019年
- 为提高数据填补方法的正确率,提出利用核K-Means聚类和离群点检测来填补缺失数据的算法(KKMOD)。用核方法将数据集映射到高维空间,聚类后形成不同簇,在同簇内选择与缺失数据最相似的数据进行填补,使用核K-Means进行离群点检测,将检测到的离群点去除填补值,重新放入数据集填补,算法不断迭代,直到填补的数据不再检测出离群点。实验结果表明,KKMOD方法能够充分考虑簇内关系,避免不同簇相互干扰,提高数据填补算法的正确率。
- 马永军汪睿李亚军陈海山
- 关键词:核方法聚类分析缺失数据离群点检测
- 一种基于深度学习模型的数据融合处理算法被引量:13
- 2017年
- 针对无线传感器网络传统数据融合算法效率较低、处理高维数据困难问题,提出一种基于深度学习模型的卷积神经网络结构实现数据融合的算法CNNMDA.算法首先在汇聚节点对构建的特征提取模型CNNM进行训练,然后各终端节点通过CNNM提取原始数据特征,最后向汇聚节点发送融合后的数据,从而减少数据传输量,延长网络寿命.仿真实验表明,CNNMDA与同类融合算法相比,在同样数据量的情况下能够大幅降低网络能耗,并有效提升了数据融合效率与准确度.
- 马永军薛永浩刘洋李亚军
- 关键词:数据融合无线传感器网络卷积神经网络
- 基于Single-Pass的在线话题检测改进算法被引量:4
- 2017年
- 现有话题检测的主要方法是利用Single-Pass及其改进算法进行聚类分析,没有考虑文本的结构特点,相似度计算方法单一,从而影响准确度.针对此问题,改进了Single-Pass的相似度计算方法,综合考虑文本的标题、摘要、时间、地名以及来源等要素,采用层次分析法计算并赋以不同权重,提出一种多相似度计算组合策略.考虑到食品安全是一个广受关注的话题,实验通过网络爬虫抓取并筛选了最近3年食品安全方面的媒体信息,以此作为数据进行分析,结果表明,采用本文提出的改进Single-Pass聚类算法,话题检测准确度更高.
- 马永军刘洋李亚军汪睿
- 关键词:网络舆情相似度计算食品安全