大连理工大学信息检索研究室
- 作品数:40 被引量:210H指数:9
- 相关作者:苏绥任巨伟吴晓芳陈相刘文飞更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于LDA模型的博客垃圾评论发现
- BLOG(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,BLOG 已经成为互联网上的主要信息源之一,这也使得BLOG 空间中的垃圾评论成倍增长。本文首先利用处理垃圾邮件的方法,针对BLOG本身的特点,使...
- 关键词:BLOG博文LDA主题垃圾评论
- 文献传递网络资源链接
- 基于随机游走的就业推荐系统研究与实现被引量:10
- 2011年
- 目前,各高校的就业指导工作尚不完善,许多毕业生在求职初期缺乏目的性和针对性,在应聘并不适合自己的企业上耗费了大量的时间和精力,由此导致就业难度加大。在此情况下,我们设计开发了高校毕业生就业推荐系统。系统从大连理工大学就业实际工作出发,通过比较应届和往届毕业生基本特征,并结合基于随机游走模型的PageRank算法获得的各个企业的"求职指数",将招聘企业排序后推荐给每一名毕业生。通过测试,本系统功能上符合设计初衷,能够向毕业生推荐适合的企业,可以提升毕业生求职的针对性和目的性,并大大减少其在获取招聘信息上的时间投入。
- 吴迪周利娟林鸿飞
- 关键词:随机游走PAGERANK就业推荐
- 基于改进PAIRWISE损失函数的排序学习方法
- 排序学习是当前机器学习与信息检索交叉领域的研究热点。它利用机器学习方法自动地构造排序模型,用于排序新的数据。PAIRWISE方法是一类重要的排序学习方法,它以偏序文档对作为训练样例,通过判断不同文档与查询的相关性大小关系...
- 关键词:信息检索损失函数
- 文献传递网络资源链接
- 基于LDA模型的博客垃圾评论发现
- Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog已经成为互联网上的主要信息源之一,这也使得Blog空间中的垃圾评论成倍增长。本文首先利用处理垃圾邮件的方法,针对Blog本身的特点,使用规...
- 刁宇峰林鸿飞
- 关键词:BLOG博文LDA主题垃圾评论
- 文献传递
- 评论挖掘中产品属性归类问题研究被引量:18
- 2012年
- 该文主要把产品评论中属性的不同描述进行归类。在产品评论中,同类的属性会有不同的描述,例如,手机的"外形"和"设计"指的是同类属性。同类属性虽然有不同的描述,但是在句中却和相同的情感词搭配使用。该文首先抽取评论句中属性和情感词的搭配关系,形成一个二部图,然后用权重标准化SimRank计算不同属性之间的相似度,并把所得的结果与半监督学习中的贝叶斯分类器进行融合,得到了更好的分类结果。通过实验证明了此方法的有效性。
- 杨源马云龙林鸿飞
- 关键词:SIMRANK半监督学习
- 基于词向量和EMD距离的短文本聚类被引量:11
- 2017年
- 短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。
- 黄栋徐博许侃林鸿飞杨志豪
- 关键词:相似度计算聚类
- 基于网页框架和规则的网页噪音去除方法
- 随着Internet的迅猛发展,Web网页上的信息呈现爆炸式的增长,而网页噪音是任何网页都不可避免的部分,它也是影响阅读网页和进行Web信息处理的一个重要因素.本文提出了一种基于网页框架和规则的网页去噪方法,该方法根据网...
- 时达明林鸿飞杨志豪
- 关键词:HTML标签网页噪音
- 文献传递
- 基于文献的知识发现:一个面向H1N1的研究
- 2011年
- 目前,生物医学文献的数量正以爆炸性的速度增长,这些文献中隐含着大量有用的信息,挖掘这些文献可以形成医学假设。然而,传统的基于简单共现的方法会产生大量的目标词,从而导致准确率下降。本文提出一种新的选取连接词的方法,使用统计特征和文本特征来代替每一个连接词并表示为向量形式,然后把这些词分类为相关和不相关。使用相关的连接词发现目标词,可以提高知识发现的准确率。本文通过Swanson的两组经典实验——雷诺氏病和鱼油、偏头痛和镁,使用有效连接词的比例变化作为依据验证了方法的有效性。最后,本文以H1N1为初始词,进行开放式和闭合式知识发现研究,得到了较好的效果。
- 周峰林鸿飞王健杨志豪
- 关键词:知识发现共现H1N1
- 基于句法特征的冗长查询处理技术
- 2013年
- 将传统的"词袋"思想进行扩展,把文档看成由句子组成的"句袋",通过依存句法分析得到"句袋"与查询中词间的依存关系。利用两者依存关系的匹配程度,计算冗长查询和初次检索返回文档之间的相似度,对初始检索结果进行重排序。通过在TREC标准数据集上的实验,证明该方法能够较有效地解决查询的冗长导致偏离查询主题和低召回率情况下相关文档排序靠后的问题。特别是对于低召回率的情况,检索结果的MAP值和P@N都有显著提高。
- 姚兰林鸿飞林原马云龙
- 关键词:查询扩展
- 基于投票人影响因子的投票预测模型被引量:1
- 2022年
- 投票预测是计算政治学的应用之一,目前绝大多数预测模型都忽视投票过程中投票人之间的相互影响.针对此问题,文中提出基于投票人影响因子的投票预测模型.首先,提出投票人影响因子,用于刻画某位投票人在投票过程中对于其他投票人投票选择的影响,同时结合预训练模型提取的投票人特征,形成影响因子图,再输入图卷积神经网络中,学习投票人的相互影响,在一定程度上模拟真实的投票博弈过程.然后,考虑到法案文本中上下文信息的关联性,利用BiLSTM(Bi-directional Long Short-Term Memory)获得法案特征向量.鉴于法案文本的规范性导致的行文近似、用词重复,使用引入TF-IDF(Term-Frequency-Inverse Document Frequency)因子的TextRank,得到法案的关键词.在国外议会网站数据集上的实验表明文中模型性能较优,消融实验也验证每个模块对文中模型的性能均有一定程度的提升.
- 张新昀张绍武任璐杨亮徐博张益嘉林鸿飞