李亚平 作品数:5 被引量:19 H指数:2 供职机构: 中国人民大学信息学院 更多>> 发文基金: 国家自然科学基金 北京市自然科学基金 中国人民大学科学研究基金 更多>> 相关领域: 自动化与计算机技术 更多>>
RABBIC:基因表达数据的基因模块发现 2016年 发现基因模块是生物信息学数据分析的一个重要研究内容.本文定义基因模块为一组基因,其表达水平在一个样本子集中的每一样本上都有完全相同或相反的大小顺序.为了从高维度的基因表达数据中发现有意义的基因模块,提出一种基于Rank(序)的双向聚类算法——RABBIC(RAnk-Based BIClustering algorithm).RABBIC算法对模拟数据集和真实数据的聚类分析都获得良好的性能评价,RABBIC算法发现了TCGA提供的卵巢癌基因表达数据的451个基因模块,其中93个同时满足显著性、准确性和相关性的要求.经基因集功能富集分析,得到了25个可能具有重要的生物医学意义的基因模块. 黄玲琳 刘青 杨楠 李亚平 肖林关键词:基因表达数据 绿色照明工程信息管理系统研究 被引量:1 2015年 绿色照明工程信息管理系统是用于管理和监督PILESLAMP项目执行情况的信息管理系统。通用的信息管理方式,无法适应PILESLAMP项目的管理需要。因而为项目专门建立了基于UML的多任务串并混合模型,并实现了将此模型应用于绿色照明信息管理系统。 李亚平关键词:信息系统 腾讯微博的内容生成模式分析 2015年 随着Web 2.0时代网络技术的快速发展,社交类网站用户大规模增加。该文选取腾讯微博近两万名用户,抓取了他们所有的微博数据,对腾讯微博的用户内容生成模式进行分析和研究。我们从微博用户贡献分析、基于时间的用户活跃度分析以及微博影响三个角度出发,对微博的数量、微博的原创与转发、微博发布的周模式与日模式、微博转发影响力以及对影响微博转发的因素进行研究。总结出微博用户内容生成的一些特点,如用户内容贡献呈现一种"90-10"规则,不同类型的用户有着不同的"微博风格",微博用户每日微博发布数有着明显的周模式与日模式等。相关分析结论对于进一步深化研究微博的用户内容生成模式具有一定参考意义。 李亚平 曹润 童露 梁循 倪志豪基于词向量的跨领域中文情感词典构建方法 被引量:13 2017年 情感分析已经成为当今自然语言处理领域的热点问题。对于文本的自动化、半监督式的情感分析研究具有广泛的理论和实用价值。基于情感词典的情感倾向分析方法是文本情感分析的一种重要手段。然而,中文词汇在不同领域中的情感倾向不尽相同,一词多义现象明显。同时,不同领域中的情感词也具有专业性、领域性的特点。针对这些问题,本文提出一种基于词向量相似度的半监督情感极性判断算法(Sentiment orientation from word vector,SO-WV),并依据该算法设计出一种跨领域的中文情感词典构建方法。实验证明,本文所设计的情感词典构建方法能有效地对情感词情感倾向进行判断。算法不仅在不同领域的情感词典建立上具有良好的可移植性,同时还具有专业性、领域性的特点。 冯超 梁循 李亚平 周小平 李晓菲关键词:情感分析 情感词典 基于Word2Vec模型特征扩展的Web搜索结果聚类性能的改进 被引量:5 2019年 对于用户泛化和模糊的查询,将Web搜索引擎返回的列表内容聚类处理,便于用户有效查找感兴趣的内容。由于返回的列表由称为片段(snippet)的短文本组成,而传统的单词频率-逆文档频率(TF-IDF)特征选择模型不能适用于稀疏的短文本,使得聚类性能下降。一个有效的方法就是通过一个外部的知识库对短文本进行扩展。受到基于神经网络词表示方法的启发,提出了通过词嵌入技术的Word2Vec模型对短文本扩展,即采用Word2Vec模型的TopN个最相似的单词用于对片段(snippet)的扩展,扩展文档使得TF-IDF模型特征选择得到聚类性能的提高。同时考虑到通用性单词造成的噪声引入,对扩展文档的TF-IDF矩阵进行了词频权重修正。实验在两个公开数据集ODP239和SearchSnippets上完成,将所提方法和纯snippet无扩展的方法、基于Wordnet的特征扩展方法和基于Wikipedia的特征扩展方法进行了对比。实验结果表明,所提方法在聚类性能方面优于对比方法。 杨楠 李亚平关键词:片段 搜索结果聚类