陈刚
- 作品数:2 被引量:36H指数:2
- 供职机构:清华大学信息科学技术学院计算机科学与技术系更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一个新的多分支全局软件流水方法被引量:2
- 1996年
- 在指令级并行性很高的体系结构中,为了得到比较好的并行优化效果,通常需要设置多个分支控制机构,本文提出一个新的支持多个分支操作并行执行的全局软件流水方法──GPMB.并用衡量全局软件流水方法性能的两个主要参数:时间开销和空间开销把我们的方法与其它几种全局软件流水方法进行了比较.模拟实验结果表明:GPMB方法的时间开销和空间开销都比较小,所需要的硬件支持也比较少.
- 汤志忠张赤红陈刚
- 关键词:指令级并行性
- 一种提高中文搜索引擎检索质量的HTML解析方法被引量:34
- 2003年
- 中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大多数情况下是不可能的。在这篇论文中 ,我们提出了网页噪声的概念 ,并针对中文网页的特点 ,实现了一种对网页自动分块并去噪的HTML解析方法 ,从而达到在预处理阶段消除潜在无关项和间接项的目的。实验结果表明 ,该方法能够在不占用查询时间的前提下 10 0 %地消除中文搜索引擎隐藏的间接项 ,以及大约 11%的无法过滤或隐藏的无关项或间接项 ,从而大幅度提高检索结果的查准率。
- 宋睿华马少平陈刚李景阳
- 关键词:中文搜索引擎网页去噪中文信息处理