您的位置: 专家智库 > >

广东省软科学研究计划(2009B070300052)

作品数:2 被引量:5H指数:2
相关作者:杨天奇漆志辉侯明燕更多>>
相关机构:暨南大学更多>>
发文基金:广东省软科学研究计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 1篇信息提取
  • 1篇性能研究
  • 1篇爬虫
  • 1篇主题爬虫
  • 1篇阈值
  • 1篇网络
  • 1篇网络爬虫
  • 1篇网页
  • 1篇网页分割
  • 1篇聚类
  • 1篇WEB信息

机构

  • 2篇暨南大学

作者

  • 2篇杨天奇
  • 1篇漆志辉
  • 1篇侯明燕

传媒

  • 2篇微型机与应用

年份

  • 2篇2011
2 条 记 录,以下是 1-2
排序方式:
基于网页分割的Web信息提取算法被引量:2
2011年
针对网页非结构化信息抽取复杂度高的问题,提出了一种基于网页分割的Web信息提取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本提取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。
侯明燕杨天奇
关键词:网页分割信息提取聚类阈值
网络爬虫性能研究被引量:3
2011年
受到学习模型爬虫的启发,主题爬虫结合网页内容和链接信息来估计网页对给定主题的相关性,得到两个新型的爬虫变种。新型爬虫强调的不仅是有学习相关网页内容的能力,而且有引向相关网页的能力,并且在查找特定主题方面的能力有质的提高。
漆志辉杨天奇
关键词:主题爬虫
共1页<1>
聚类工具0