张刚
- 作品数:42 被引量:105H指数:6
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家重点基础研究发展计划国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术一般工业技术文化科学更多>>
- 基于站点的Web信息采集器研究
- 基于站点的采集器是一类有针对性的采集器,它以站点作为采集的单位.本文在总结以往工作的基础上,首先说明站点采集自身的特点,然后讨论如何提高其性能,最后是实际的系统介绍和展望.
- 张凯李魁张刚王斌
- 关键词:采集器站点WEB信息
- 文献传递网络资源链接
- 天罗Web信息采集系统中的性能优化
- 随着Web信息的爆炸性增长,对Web信息采集的性能提出了巨大的挑战.本文介绍了天罗Web信息采集的总体结构和性能优化策略.在性能优化策略中详细分析了优雅采集、页面采集、页面刷新和分布式采集.在页面采集中分析了多线程、重复...
- 吴丽辉张凯张刚王斌
- 关键词:WEB信息采集信息处理
- 文献传递网络资源链接
- 网格系统软件
- 徐志伟谢向辉肖侬唐志敏迟学斌李伟时永红施巍松赵广为卜冠英黄飏李常顾健易声旗杨琳桂祚勤卢德平高峰杨义军黄勇徐涛刘飞王意洁黄遵国任浩任剑勇卢宇彤李明张源游赣梅刘东华张刚王涌曹鸿强
- 本期项目研制的网格系统软件GridWare的关键技术为:全网格统一的资源信息管理;全网格统一的用户管理;全网格统一的作业管理;全网格统一的用户实用工具;全网格统一的安全和认证系统。GridWare系统分为两层结构:与底层...
- 关键词:
- 关键词:网格
- 基于链接的分布式信息检索文档划分研究
- 文档集合的划分是分布式信息检索面临的一个重要问题,本文提出了一种基于链接的聚类算法(LIBCA)来进行分布式信息检索的文档划分,LIBCA算法利用网页间的链接关系来计算网页与网页、网页与网页集合之间的相似度,从而利用聚类...
- 张刚王斌程学旗
- 关键词:链接聚类信息检索分布式
- 文献传递网络资源链接
- 基于主题的分布式信息检索研究
- 本文通过以主题的方式构建分布式信息检索的文档集合,将传统的按照出版时间、信息来源构造文档集合的方法作为不限,对比看出基于主题的方法在检索的效果上明显提高,原因是以主题的方式建立文档集合便查询的答案有效的凝聚在少数文档集合...
- 张刚周昭涛王斌
- 关键词:信息检索文本聚类网络信息
- 文献传递
- 一种在股评论坛中挖掘股评托的方法
- 本发明涉及网络信息处理技术领域,是一种在股评论坛中利用股评人对某只股票发表股评的前后股市行情的变化,来挖掘股评托的方法。本发明从股评论坛中抽取出某段时间内每个股评人的股评,然后以该股评出笼前后相应股票的行情序列为窗口,用...
- 郭岩白硕张凯王斌张刚
- 文献传递
- 查询相关链接分析算法优化策略研究
- 在通用搜索引擎返回的众多结果中,用户更关注的是与查询高度相关的那些网页的集合,而通过链接分析算法,特别是与查询相关的链接分析算法能够很好满足用户的这种需求,目前常用的查询相关链接分析方法有进一步改进的余地.本文提出了两种...
- 刘悦张刚王斌许洪波
- 关键词:链接分析算法SVD分解HITS算法
- 文献传递网络资源链接
- 基于站点的Web信息采集器研究
- 基于站点的采集器是一类有针对性的采集器,它以站点作为采集的单位。本文在总结以往工作的基础上,首先说明站点采集自身的特点,然后讨论如何提高其性能,最后是实际的系统介绍和展望。
- 张凯李魁张刚王斌
- 关键词:采集器WEB站点
- 文献传递
- 一种优化网站链接结构的方法
- 本发明涉及网络信息处理技术领域,是一种利用网络用户对网页之间相关性的潜在理解来优化网站链接结构的方法。该方法利用网站的服务器日志中蕴含的网络用户对网页之间相关性的潜在理解,从网站的服务器日志中抽取出用户主观上认为的网站链...
- 郭岩刘悦王斌张刚
- 文献传递
- Web信息采集中的哈希函数比较被引量:11
- 2006年
- 在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷.
- 吴丽辉白硕张刚张凯
- 关键词:WEB信息采集哈希函数URL