中国人民大学科学研究基金(22382078)
- 作品数:3 被引量:13H指数:2
- 相关作者:夏天更多>>
- 相关机构:中国人民大学教育部更多>>
- 发文基金:中国人民大学科学研究基金国家社会科学基金教育部科学技术研究重点项目更多>>
- 相关领域:自动化与计算机技术更多>>
- Ajax站点数据采集研究综述被引量:11
- 2010年
- 从Ajax链接元素的识别、页面状态标识、页面状态可控性转换、页面状态内容动态获取和状态重复检测5个方面介绍Ajax数据采集所取得的最新研究进展,总结系统的整体处理流程和支撑技术,探讨新的发展趋势,推动Ajax数据采集问题展开更为深入的研究。
- 夏天
- 关键词:数据采集WEB2.0
- 基于扩展标记树的网页正文抽取被引量:2
- 2011年
- 本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取。实验结果表明:该方法可以实现常规文章类网页的高精度抽取,并具有良好的适应性。
- 夏天
- Nutch的插件机制分析
- 2010年
- 论述Nutch插件机制的设计目标,分析归纳Nutch轻量级插件体系结构所包括的3组基本概念:微内核、扩展点和扩展;插件、插件清单和插件清单描述器;插件工厂和插件清单解析器。总结Nutch插件的处理流程和概念与实际文件之间的对应关系。对Nutch插件机制的深入理解,有助于灵活构建基于Nutch的新应用。
- 夏天
- 关键词:NUTCH微内核插件扩展点