您的位置: 专家智库 > >

严华梁

作品数:5 被引量:15H指数:2
供职机构:北京大学更多>>
发文基金:国家高技术研究发展计划中国博士后科学基金中国科学技术信息研究所预研基金项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 2篇专利
  • 1篇学位论文

领域

  • 3篇自动化与计算...

主题

  • 3篇新闻
  • 3篇抽取
  • 2篇新闻评论
  • 2篇信息检索
  • 2篇页面
  • 2篇数据抽取
  • 2篇数据集
  • 2篇数据集成
  • 2篇数据集成技术
  • 2篇特征值
  • 2篇网页
  • 2篇集成技术
  • 2篇翻页
  • 2篇WEB
  • 2篇WEB数据抽...
  • 2篇抽取方法
  • 1篇新闻属性
  • 1篇视觉特征
  • 1篇视觉信息
  • 1篇内容抽取

机构

  • 5篇北京大学
  • 2篇中国科学技术...
  • 2篇北京北大方正...
  • 2篇北大方正集团...

作者

  • 5篇严华梁
  • 2篇万小军
  • 2篇刘伟
  • 2篇刘伟
  • 1篇曾建勋
  • 1篇肖建国

传媒

  • 1篇计算机工程
  • 1篇软件学报

年份

  • 1篇2013
  • 1篇2012
  • 2篇2011
  • 1篇2010
5 条 记 录,以下是 1-5
排序方式:
一种新闻评论页面的爬取方法及系统
本发明公开了一种新闻评论页面的爬取方法及系统,属于信息检索和数据集成技术领域。该方法及系统首先从新闻网站起始页面出发,对页面进行广度遍历,在遍历过程中获取满足深度限制的页面信息;然后计算页面的特征值,根据特征值和预设阈值...
严华梁刘伟杨建武万小军肖建国
一种新闻评论页面的爬取方法及系统
本发明公开了一种新闻评论页面的爬取方法及系统,属于信息检索和数据集成技术领域。该方法及系统首先从新闻网站起始页面出发,对页面进行广度遍历,在遍历过程中获取满足深度限制的页面信息;然后计算页面的特征值,根据特征值和预设阈值...
严华梁刘伟杨建武万小军肖建国
文献传递
一种统一的Web新闻对象自动抽取方法被引量:4
2012年
提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板。
刘伟严华梁
关键词:WEB数据抽取视觉特征网页模板新闻属性
博文网页的自动识别与内容抽取
随着Web2.0的发展,博客已成为一种重要的互联网信息发布方式。如何高效准确地抽取博客中的信息成为众多互联网应用迫切需要解决的问题之一。本文主要研究博客中博文网页的自动识别与内容抽取问题,其中博文网页的内容抽取分为博文内...
严华梁
关键词:自动识别视觉信息
一种Web评论自动抽取方法被引量:13
2010年
Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致性严重影响了评论记录在DOM树和视觉上的相似性;其次,评论内容在DOM树中是一棵复杂的子树,而且彼此之间在DOM树中的结构相差巨大.为了解决这两个问题,提出了一种完整的解决方案,使用多种技术来实现对用户评论内容的抽取.抽取过程分为两个步骤,基于深度加权的树相似性算法评论记录首先从网页中抽取出来,然后通过比较DOM树中节点的一致性,将纯粹的用户评论内容从评论记录中抽取出来.在多个新闻网站和论坛网站上的实验结果表明,该方法可以达到较高的准确度和效率.
刘伟严华梁肖建国曾建勋
关键词:WEB数据抽取
共1页<1>
聚类工具0