您的位置: 专家智库 > >

耿桦

作品数:5 被引量:20H指数:3
供职机构:南京大学计算机科学与技术系计算机软件新技术国家重点实验室更多>>
相关领域:自动化与计算机技术经济管理文化科学更多>>

文献类型

  • 4篇期刊文章
  • 1篇学位论文

领域

  • 5篇自动化与计算...
  • 1篇经济管理
  • 1篇文化科学

主题

  • 2篇WEB内容
  • 2篇WEB内容挖...
  • 1篇信息抽取
  • 1篇信息提取
  • 1篇信息系统
  • 1篇语言处理
  • 1篇语言模型
  • 1篇数据挖掘
  • 1篇搜索
  • 1篇统计语言模型
  • 1篇资源搜索
  • 1篇自然语言
  • 1篇自然语言处理
  • 1篇网页
  • 1篇线性插值
  • 1篇后缀树
  • 1篇回退
  • 1篇基于网页
  • 1篇分布式
  • 1篇分布式信息

机构

  • 5篇南京大学

作者

  • 5篇耿桦
  • 4篇潘金贵
  • 2篇高强
  • 2篇李媛
  • 1篇张敬芝
  • 1篇朱炜
  • 1篇张甍
  • 1篇张敬之

传媒

  • 4篇计算机科学

年份

  • 2篇2007
  • 2篇2006
  • 1篇2005
5 条 记 录,以下是 1-5
排序方式:
基于网页结构挖掘的信息提取被引量:2
2006年
本文提出了两种细粒度的、基于网页结构挖掘的信息提取方法,比较了它们的优缺点,并给出了相应具体实现的性能测试和结果分析。
李媛耿桦张甍潘金贵
关键词:信息提取RSS
基于重复模式的Web信息抽取被引量:8
2007年
网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实例中抽取出对应的数据记录。
高强张敬之耿桦潘金贵
关键词:WEB信息抽取后缀树
统计自然语言处理中的线性插值平滑技术被引量:5
2007年
统计自然语言处理中,一个很复杂的问题是数据稀疏问题。主要有两种平滑方法解决:回退法和线性插值法。本文分析和比较了几种典型的线性插值方法,着重研究了它们所引发的词性聚类倾向。在此基础上,给出了2种改进的平滑方法。实验表明,改进的方法比原来的方法有更出色的平滑效果。
张敬芝高强耿桦潘金贵
关键词:统计语言模型N-GRAM
基于超链分析的Web排名算法研究
World Wide Web(简称Web)自诞生起,其规模在短短十几年间呈指数级增长。由于Web的存在,人们可以方便得获得大量信息。但同时Web信息的海量性、复杂性、分布性以及非结构性,使人们在利用它来获取自己所需的有用...
耿桦
关键词:WEB内容挖掘数据挖掘超链分析
Web搜索中的数据挖掘技术研究被引量:5
2005年
WWW已经成为世界上是大的分布式信息系统,如何快速有效地搜索用户所需的资源一直是研究热点。Web挖掘也已经成为数据挖掘中相对成熟的一个分支。本文针对Web资源搜索中利用的相关Web挖掘技术做一个综述。文章首先对目前流行的Web内容挖掘方面的常用技术进行了研究分析,然后着重研究了Web结构挖掘技术,介绍并评价了多种算法模型。接着介绍了用户使用的挖掘,并提出了Web内容挖掘技术,结构挖掘技术和用户使用挖掘相结合,应用于开发智能型搜索引擎的趋势。
耿桦李媛朱炜潘金贵
关键词:WEB搜索分布式信息系统WEB挖掘技术WEB内容挖掘WEB结构资源搜索
共1页<1>
聚类工具0