您的位置: 专家智库 > >

国家重点基础研究发展计划(2007CB311103)

作品数:13 被引量:193H指数:7
相关作者:王斌马宏远李亚楠靖红芳徐燕更多>>
相关机构:中国科学院中国科学院研究生院北京语言大学更多>>
发文基金:国家重点基础研究发展计划国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术自然科学总论更多>>

文献类型

  • 13篇期刊文章
  • 6篇会议论文

领域

  • 18篇自动化与计算...
  • 1篇自然科学总论

主题

  • 8篇搜索
  • 7篇引擎
  • 7篇搜索引擎
  • 7篇索引
  • 5篇中文
  • 5篇查询
  • 4篇信息检索
  • 4篇文本分类
  • 4篇计算机
  • 4篇计算机应用
  • 3篇信息处理
  • 3篇中文信息
  • 3篇中文信息处理
  • 3篇网页
  • 3篇缓存
  • 3篇查询推荐
  • 2篇用户
  • 2篇日志
  • 2篇数据挖掘
  • 2篇统计学习

机构

  • 19篇中国科学院
  • 9篇中国科学院研...
  • 4篇北京语言大学
  • 1篇北京大学
  • 1篇北京科技大学
  • 1篇国家互联网应...
  • 1篇中国科学院大...

作者

  • 11篇王斌
  • 4篇马宏远
  • 3篇张爱华
  • 2篇李恒训
  • 2篇蒋在帆
  • 2篇徐燕
  • 2篇靖红芳
  • 2篇许晟
  • 2篇崔雅超
  • 2篇李鹏
  • 2篇李亚楠
  • 2篇石志伟
  • 1篇许洪波
  • 1篇谭建龙
  • 1篇李锦涛
  • 1篇刘萍
  • 1篇张磊
  • 1篇郭莉
  • 1篇郭牧怡
  • 1篇王斌

传媒

  • 7篇中文信息学报
  • 4篇计算机研究与...
  • 1篇计算机学报
  • 1篇计算机工程
  • 1篇第六届全国信...
  • 1篇第五届全国信...

年份

  • 4篇2012
  • 3篇2011
  • 8篇2010
  • 4篇2009
13 条 记 录,以下是 1-10
排序方式:
基于用户行为分析的个人信息检索研究被引量:11
2011年
个人信息检索是指个人计算机上用户搜索个人信息(通常是文档)的过程,与互联网检索相比,个人信息检索能够利用的信息很少,这使得其检索结果的排序更加困难。该文通过考察计算机上的用户行为,对个人信息检索的排序问题进行深入的研究。该文考察的用户行为主要包括用户在检索系统中的查询行为和在计算机上的文件访问行为。该文一方面通过查询行为数据训练出结果排序函数,另一方面通过文件访问行为数据获取文件自身的权重,最后利用统计学习方法结合这两类行为的计算结果。实验结果表明,该文提出的方法好于传统的TFIDF排序方法。
蒋在帆王斌
关键词:用户行为统计学习RANKINGSVM
大规模短文本的不完全聚类被引量:39
2011年
聚类分析是数据挖掘的一个重要手段,人们可以通过聚类发现信息中潜在的热点或规律。至今,已经有大量聚类算法被研究和提出。随着互联网的日益普及,查询日志、Twitter等短文本信息逐渐在人们生活中起着越来越重要的作用。这类短文本信息数量巨大,通常可达到千万乃至亿级,现有的聚类算法在对这类大规模短文本信息进行聚类分析时往往显得异常无力。该文通过对实际应用中的短文本信息进行实验分析,发现了这类数据类别所具有的"长尾现象",并由此提出了不完全聚类思想,可以有效地提高这类短文本信息的聚类性能。
彭泽映俞晓明许洪波刘春阳
关键词:聚类分析
非均衡文本分类中基于特征分布的抽样技术研究
在处理非均衡文本分类问题的诸多方法中,基于数据的方法最灵活,应用也最广泛。然而,传统的基于数据的方法存在过学习、丢失有用信息及增加训练分类器时间成本等问题,本文提出一系列策略,在一定程度上解决了上述问题。本文借鉴SMOT...
张爱华王斌徐燕
关键词:文本分类非均衡OVER-SAMPLING高斯混合模型
文献传递
基于加权SimRank的中文查询推荐研究被引量:16
2010年
查询推荐是搜索引擎系统中的一项重要技术,其通过推荐更合适的查询以提高用户的搜索体验。现有方法能够找到直接通过某种属性关联的相似查询,却忽略了具有间接关联的语义相关查询。该文将用户查询及查询间直接联系建模为查询关系图,并在图结构相似度算法SimRank的基础上提出了加权SimRank(简称WSimRank)用于查询推荐。WSimRank综合考虑了查询关系图的全局信息,因而能挖掘出查询间的间接关联和语义关系。然而,WSimRank复杂度太高而难以实用,该文将WSimRank转换为一个状态层次图的遍历和计算过程,进而采用动态规划、剪枝等策略对其进行优化从而可以实际应用。在大规模真实Web搜索日志上的实验表明,WSimRank在各项评价指标上均优于SimRank和传统查询推荐方法,其MAP指标接近0.9。
李亚楠许晟王斌
关键词:计算机应用中文信息处理搜索引擎查询推荐SIMRANK
一种基于查询特性的查询结果缓存与预取方法
2011年
针对搜索引擎查询结果缓存与预取问题,该文提出了一种基于查询特性的搜索引擎查询结果缓存与预取方法,该方法包括用来指导预取的查询结果页码预测模型和缓存与预取算法框架,用于提高搜索引擎系统性能。通过对国内某著名中文商业搜索引擎的某段时间的用户查询日志分析得出,用户对不同查询返回的查询结果所浏览的页数具有显著的非均衡性,结合该特性设计查询结果页码预测模型来进行预取和分区缓存。在该搜索引擎两个月的大规模真实用户查询日志上的实验结果表明,与传统的方法相比,该方法可以获得3.5%~8.45%的缓存命中率提升。
马宏远王斌
关键词:搜索引擎查询结果缓存
文本分类中特征权重因子的作用研究被引量:18
2010年
在传统的基于向量空间的文本分类中,特征权重计算与特征选择过程完全割裂,特征选择函数的得分能反映特征的重要性,却未被纳入权重表示,造成特征表示不精确并影响分类性能。一些改进方法使用特征选择函数等修改TFIDF模型,提高了分类性能,但没有探究各权重因子如何影响分类的性能。该文以词频、逆文档频率及特征选择函数分别作为衡量特征的文档代表性、文档区分性及类别区分性的因子,通过实验测试了它们对分类性能的影响,得到文档代表性因子能使分类效果峰值最高但抵抗噪音特征能力差、文档区分性因子具有抗噪能力但性能不稳定、而类别区分性因子抗噪能力最强且性能最稳定的结论。最后给出权重表示的四点构造原则,并通过实验验证了其对分类性能的优化效果。
张爱华靖红芳王斌徐燕
关键词:计算机应用中文信息处理文本分类VSM
Tag-TextRank:一种基于Tag的网页关键词抽取方法
关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值。本文尝试利用一种近年来受到广泛关注的新的信息源--社会化标签(Tag)来提高网页关键词抽取的质量。在对Tag数据进行统计分析的基础上,提出了...
李鹏王斌石志伟崔雅超李恒训
关键词:社会化标签关键词抽取
文献传递
一种基于预取感知接纳策略的查询结果缓存方法
2012年
针对搜索引擎查询结果缓存问题,提出了一种基于预取感知接纳策略的查询结果缓存方法,用于提高搜索引擎检索系统性能.查询结果预取导致查询结果页码的缓存缺失率具有显著差异性,结合该特性设计预取感知接纳策略,该策略包含查询评估模型以及模型特征选择方法.在该策略基础上,设计了一种查询结果缓存方法.在该搜索引擎两个月的大规模真实用户查询日志上的实验结果表明,与传统的典型方法相比,该方法可以获得6.38%~11.99%的缓存命中率提升.
马宏远王斌
关键词:缓存查询结果搜索引擎信息检索
搜索引擎查询推荐技术综述被引量:30
2010年
查询推荐技术,其用于找出与初始查询或关键词相关的其他查询或关键词,被广泛用于搜索引擎和广告检索系统中。作为当今搜索引擎的必备技术之一,查询推荐技术研究正受到越来越多的关注,近几年出现了很多验证查询推荐可用性及改进其算法的研究工作。为此,该文对查询推荐的发展过程、技术方法、评价体系等方面进行了归纳和总结,分析了查询推荐面临的挑战并讨论了现有解决方法及未来研究思路,希望能对相关研究人员有所帮助。
李亚楠王斌李锦涛
关键词:计算机应用中文信息处理查询推荐信息检索
文本分类中特征权重因子的作用研究
在文本分类任务中,通常首先以TFIDF模型表示特征权重,进而通过特征选择函数给出的得分将特征排序,排名靠前的特征以其TFIDF值输入分类器。特征选择函数所计算出来的得分能一定程度代表特征的重要性,然而该得分却没有被纳入权...
张爱华靖红芳王斌徐燕
关键词:文本分类VSM
文献传递
共2页<12>
聚类工具0