您的位置: 专家智库 > >

沈抖

作品数:4 被引量:46H指数:3
供职机构:清华大学信息科学技术学院计算机科学与技术系更多>>
发文基金:国家重点基础研究发展计划国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 1篇学位论文
  • 1篇会议论文

领域

  • 4篇自动化与计算...

主题

  • 4篇网页
  • 4篇网页分类
  • 2篇网络
  • 2篇网络挖掘
  • 1篇支持向量
  • 1篇支持向量机
  • 1篇日志
  • 1篇特征提取
  • 1篇万维网
  • 1篇网页聚类
  • 1篇文本分类
  • 1篇向量
  • 1篇向量机
  • 1篇聚类
  • 1篇贝叶斯
  • 1篇贝叶斯算法
  • 1篇SVM
  • 1篇BODY
  • 1篇CONTEN...
  • 1篇GSP

机构

  • 4篇清华大学
  • 1篇大连海事大学

作者

  • 4篇沈抖
  • 3篇陆玉昌
  • 2篇孙建涛
  • 1篇石纯一
  • 1篇丛艳
  • 1篇郭崇慧
  • 1篇鲁明羽

传媒

  • 1篇电子学报
  • 1篇清华大学学报...
  • 1篇全国搜索引擎...

年份

  • 1篇2006
  • 2篇2004
  • 1篇2003
4 条 记 录,以下是 1-4
排序方式:
网页分类技术研究及系统实现
万维网上数据量的急剧增加,使得人工从网上获取有效的信息变得十分困难.网页分类技术成为解决这个矛盾的关键技术之一.本文介绍的网页分类系统(HCS<'[1]>)综合考虑了网页中的文本信息和结构信息,用Naive Bayes和...
沈抖孙建涛丛艳陆玉昌
关键词:网页分类特征提取贝叶斯算法SVM支持向量机
文献传递
网页分类技术被引量:37
2004年
网页分类是使用机器学习的方法实现网页类别的自动标注。回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法。使用纯文本分类技术处理网页是不合理的。基于概率模型的方法和关系学习方法计算量大,关系学习方法学习结果的可解释性好,支持向量机方法分类准确率高,但核函数的构造和大规模数据集的训练都是该算法的难题。应该采用多种指标对网页分类算法进行评价。
孙建涛沈抖陆玉昌石纯一
关键词:网页分类文本分类网络挖掘
面向网页分类的网页摘要方法被引量:7
2006年
网页分类是网络挖掘的重要研究内容之一.与文本分类相比,网页分类面临的困难更多.去除网页中的噪声信息可以提高网页分类的精度,基于摘要的网页分类方法利用了这一思想.本文对三种传统的网页摘要方法进行了分析和改进,提出了Content Body摘要方法以及基于四种摘要方法的混合摘要方法;在此基础上,进行了大量基于摘要的网页分类实验.实验结果表明,所有的摘要方法都可以提高分类效果,其中混和摘要方法效果最好,可以使分类的F1值得到12.9%的改进.
鲁明羽沈抖郭崇慧陆玉昌
关键词:网页分类CONTENTBODY
万维网上数据处理方法的研究
万维网自诞生以来,发展十分迅速,已经成为人类交流的重要媒体、人类数据的巨大仓库和人类知识的潜在源泉。因此如何使用户快速便捷的获取、处理、利用万维网上的数据成为人类必须解决的问题。本论文从网页分类、网页摘要以及Email聚...
沈抖
关键词:网络挖掘网页分类网页聚类查询日志GSP
文献传递
共1页<1>
聚类工具0