您的位置: 专家智库 > >

王燕华

作品数:1 被引量:20H指数:1
供职机构:上海海洋大学信息学院更多>>
发文基金:上海市教育委员会重点学科基金国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇正文提取
  • 1篇网页
  • 1篇网页正文
  • 1篇网页正文提取
  • 1篇文本相似度
  • 1篇相似度

机构

  • 1篇上海大学
  • 1篇上海海洋大学

作者

  • 1篇王利
  • 1篇廖涛
  • 1篇刘宗田
  • 1篇王燕华

传媒

  • 1篇计算机工程

年份

  • 1篇2010
1 条 记 录,以下是 1-1
排序方式:
基于内容相似度的网页正文提取被引量:20
2010年
提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。
王利刘宗田王燕华廖涛
关键词:文本相似度
共1页<1>
聚类工具0