公共文化服务平台

2025年1月1日星期三

|

欢迎来到南京江宁区图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

国家重点基础研究发展计划(2007CB311103): 作品数：13 被引量：193H指数：7; 相关作者：王斌马宏远李亚楠靖红芳徐燕更多>>; 相关机构：中国科学院中国科学院研究生院北京语言大学更多>>; 发文基金：国家重点基础研究发展计划国家自然科学基金国家高技术研究发展计划更多>>; 相关领域：自动化与计算机技术自然科学总论更多>>

相关作品
相关人物
相关机构
相关资助
相关领域

文献类型

13篇期刊文章
6篇会议论文

领域

18篇自动化与计算...
1篇自然科学总论

主题

8篇搜索
7篇引擎
7篇搜索引擎
7篇索引
5篇中文
5篇查询
4篇信息检索
4篇文本分类
4篇计算机
4篇计算机应用
3篇信息处理
3篇中文信息
3篇中文信息处理
3篇网页
3篇缓存
3篇查询推荐
2篇用户
2篇日志
2篇数据挖掘
2篇统计学习

机构

19篇中国科学院
9篇中国科学院研...
4篇北京语言大学
1篇北京大学
1篇北京科技大学
1篇国家互联网应...
1篇中国科学院大...

作者

11篇王斌
4篇马宏远
3篇张爱华
2篇李恒训
2篇蒋在帆
2篇徐燕
2篇靖红芳
2篇许晟
2篇崔雅超
2篇李鹏
2篇李亚楠
2篇石志伟
1篇许洪波
1篇谭建龙
1篇李锦涛
1篇刘萍
1篇张磊
1篇郭莉
1篇郭牧怡
1篇王斌

传媒

7篇中文信息学报
4篇计算机研究与...
1篇计算机学报
1篇计算机工程
1篇第六届全国信...
1篇第五届全国信...

年份

4篇2012
3篇2011
8篇2010
4篇2009

共 13 条记录，以下是 1-10

全选清除导出

排序方式：

基于用户行为分析的个人信息检索研究被引量：11: 2011年; 个人信息检索是指个人计算机上用户搜索个人信息(通常是文档)的过程,与互联网检索相比,个人信息检索能够利用的信息很少,这使得其检索结果的排序更加困难。该文通过考察计算机上的用户行为,对个人信息检索的排序问题进行深入的研究。该文考察的用户行为主要包括用户在检索系统中的查询行为和在计算机上的文件访问行为。该文一方面通过查询行为数据训练出结果排序函数,另一方面通过文件访问行为数据获取文件自身的权重,最后利用统计学习方法结合这两类行为的计算结果。实验结果表明,该文提出的方法好于传统的TFIDF排序方法。; 蒋在帆王斌; 关键词：用户行为统计学习 RANKING SVM

大规模短文本的不完全聚类被引量：39: 2011年; 聚类分析是数据挖掘的一个重要手段,人们可以通过聚类发现信息中潜在的热点或规律。至今,已经有大量聚类算法被研究和提出。随着互联网的日益普及,查询日志、Twitter等短文本信息逐渐在人们生活中起着越来越重要的作用。这类短文本信息数量巨大,通常可达到千万乃至亿级,现有的聚类算法在对这类大规模短文本信息进行聚类分析时往往显得异常无力。该文通过对实际应用中的短文本信息进行实验分析,发现了这类数据类别所具有的"长尾现象",并由此提出了不完全聚类思想,可以有效地提高这类短文本信息的聚类性能。; 彭泽映俞晓明许洪波刘春阳; 关键词：聚类分析

非均衡文本分类中基于特征分布的抽样技术研究: 在处理非均衡文本分类问题的诸多方法中,基于数据的方法最灵活,应用也最广泛。然而,传统的基于数据的方法存在过学习、丢失有用信息及增加训练分类器时间成本等问题,本文提出一系列策略,在一定程度上解决了上述问题。本文借鉴SMOT...; 张爱华王斌徐燕; 关键词：文本分类非均衡 OVER-SAMPLING 高斯混合模型; 文献传递

基于加权SimRank的中文查询推荐研究被引量：16: 2010年; 查询推荐是搜索引擎系统中的一项重要技术,其通过推荐更合适的查询以提高用户的搜索体验。现有方法能够找到直接通过某种属性关联的相似查询,却忽略了具有间接关联的语义相关查询。该文将用户查询及查询间直接联系建模为查询关系图,并在图结构相似度算法SimRank的基础上提出了加权SimRank(简称WSimRank)用于查询推荐。WSimRank综合考虑了查询关系图的全局信息,因而能挖掘出查询间的间接关联和语义关系。然而,WSimRank复杂度太高而难以实用,该文将WSimRank转换为一个状态层次图的遍历和计算过程,进而采用动态规划、剪枝等策略对其进行优化从而可以实际应用。在大规模真实Web搜索日志上的实验表明,WSimRank在各项评价指标上均优于SimRank和传统查询推荐方法,其MAP指标接近0.9。; 李亚楠许晟王斌; 关键词：计算机应用中文信息处理搜索引擎查询推荐 SIMRANK

一种基于查询特性的查询结果缓存与预取方法: 2011年; 针对搜索引擎查询结果缓存与预取问题,该文提出了一种基于查询特性的搜索引擎查询结果缓存与预取方法,该方法包括用来指导预取的查询结果页码预测模型和缓存与预取算法框架,用于提高搜索引擎系统性能。通过对国内某著名中文商业搜索引擎的某段时间的用户查询日志分析得出,用户对不同查询返回的查询结果所浏览的页数具有显著的非均衡性,结合该特性设计查询结果页码预测模型来进行预取和分区缓存。在该搜索引擎两个月的大规模真实用户查询日志上的实验结果表明,与传统的方法相比,该方法可以获得3.5%~8.45%的缓存命中率提升。; 马宏远王斌; 关键词：搜索引擎查询结果缓存

文本分类中特征权重因子的作用研究被引量：18: 2010年; 在传统的基于向量空间的文本分类中,特征权重计算与特征选择过程完全割裂,特征选择函数的得分能反映特征的重要性,却未被纳入权重表示,造成特征表示不精确并影响分类性能。一些改进方法使用特征选择函数等修改TFIDF模型,提高了分类性能,但没有探究各权重因子如何影响分类的性能。该文以词频、逆文档频率及特征选择函数分别作为衡量特征的文档代表性、文档区分性及类别区分性的因子,通过实验测试了它们对分类性能的影响,得到文档代表性因子能使分类效果峰值最高但抵抗噪音特征能力差、文档区分性因子具有抗噪能力但性能不稳定、而类别区分性因子抗噪能力最强且性能最稳定的结论。最后给出权重表示的四点构造原则,并通过实验验证了其对分类性能的优化效果。; 张爱华靖红芳王斌徐燕; 关键词：计算机应用中文信息处理文本分类 VSM

Tag-TextRank:一种基于Tag的网页关键词抽取方法: 关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值。本文尝试利用一种近年来受到广泛关注的新的信息源--社会化标签(Tag)来提高网页关键词抽取的质量。在对Tag数据进行统计分析的基础上,提出了...; 李鹏王斌石志伟崔雅超李恒训; 关键词：社会化标签关键词抽取; 文献传递

一种基于预取感知接纳策略的查询结果缓存方法: 2012年; 针对搜索引擎查询结果缓存问题,提出了一种基于预取感知接纳策略的查询结果缓存方法,用于提高搜索引擎检索系统性能.查询结果预取导致查询结果页码的缓存缺失率具有显著差异性,结合该特性设计预取感知接纳策略,该策略包含查询评估模型以及模型特征选择方法.在该策略基础上,设计了一种查询结果缓存方法.在该搜索引擎两个月的大规模真实用户查询日志上的实验结果表明,与传统的典型方法相比,该方法可以获得6.38%～11.99%的缓存命中率提升.; 马宏远王斌; 关键词：缓存查询结果搜索引擎信息检索

搜索引擎查询推荐技术综述被引量：30: 2010年; 查询推荐技术,其用于找出与初始查询或关键词相关的其他查询或关键词,被广泛用于搜索引擎和广告检索系统中。作为当今搜索引擎的必备技术之一,查询推荐技术研究正受到越来越多的关注,近几年出现了很多验证查询推荐可用性及改进其算法的研究工作。为此,该文对查询推荐的发展过程、技术方法、评价体系等方面进行了归纳和总结,分析了查询推荐面临的挑战并讨论了现有解决方法及未来研究思路,希望能对相关研究人员有所帮助。; 李亚楠王斌李锦涛; 关键词：计算机应用中文信息处理查询推荐信息检索

文本分类中特征权重因子的作用研究: 在文本分类任务中,通常首先以TFIDF模型表示特征权重,进而通过特征选择函数给出的得分将特征排序,排名靠前的特征以其TFIDF值输入分类器。特征选择函数所计算出来的得分能一定程度代表特征的重要性,然而该得分却没有被纳入权...; 张爱华靖红芳王斌徐燕; 关键词：文本分类 VSM; 文献传递

全选清除导出

共2页<1 2>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有@南京江宁区图书馆 2015－2016 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张