您的位置: 专家智库 > >

金明珠

作品数:2 被引量:6H指数:2
供职机构:上海理工大学光电信息与计算机工程学院更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 2篇爬虫
  • 2篇主题爬虫
  • 2篇URL过滤
  • 1篇特征信息
  • 1篇统计模型
  • 1篇主题相关
  • 1篇主题相关度
  • 1篇字段
  • 1篇相关度

机构

  • 2篇上海理工大学

作者

  • 2篇丁岳伟
  • 2篇金明珠

传媒

  • 1篇计算机应用
  • 1篇计算机工程与...

年份

  • 1篇2010
  • 1篇2009
2 条 记 录,以下是 1-2
排序方式:
基于统计模型的主题爬虫的研究与实现被引量:3
2010年
在研究了现存的主题爬虫的基础上,提出了一种基于统计模型的主题爬虫,它对抓取过程中可获得的信息进行分析,并运用统计模型计算的结果过滤URL,有效地解决了偏好特定主题的用户检索和Web信息的索引等相关问题。实验结果表明,与基于链接和网页内容分析的主题爬虫相比,该主题爬虫能够在检索较少的网页时,抓取到较多的与主题相关的网页,提高了抓取精度。
金明珠丁岳伟
关键词:统计模型主题爬虫URL过滤特征信息字段
基于动态主题库的主题爬虫被引量:4
2009年
通过对基于不同策略过滤URL的主题爬虫的研究,提出了一种基于动态主题库的主题爬虫。它能够在运行期间实时地更新主题库,提高了对URL过滤的准确度。实验表明,所提的主题爬虫能够在相对较少的时间中,检索尽量少的网络空间,抓取到较多与主题相关的网页。
金明珠丁岳伟
关键词:主题爬虫URL过滤主题相关度
共1页<1>
聚类工具0