王启户
- 作品数:5 被引量:1H指数:1
- 供职机构:西安电子科技大学计算机学院更多>>
- 发文基金:中央高校基本科研业务费专项资金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 一种自适应字长的中文词库的构建方法
- 中文搜索引擎中的词库是提高文本信息存储与查找效率的关键。本文以异或哈希算法为基础,根据对不同字长词出现概率的统计结果,利用词条的机内编码和汉字笔画数,把不同字长的词散列到不同的哈希值区间,从而将哈希值的冲突率降低到0.0...
- 王启户詹海生周水生
- 关键词:哈希函数
- 文献传递
- 一种自适应字长的中文词库的构建方法
- 中文搜索引擎中的词库是提高文本信息存储与查找效率的关键.以异或Hash算法为基础,根据对不同字长词出现概率的统计结果,利用词条的机内编码和汉字笔画数,把不同字长的词散列到不同的Hash值区间.实验结果表明该算法可以将Ha...
- 詹海生王启户
- 关键词:HASH函数
- 文献传递
- 面向远程教育的搜索引擎系统设计与实现
- 面向远程教育的垂直搜索引擎系统是远程教育资源获取的主要途径。在爬取子系统中,通过对国内远程教育资源建设机制的分析,专用数据结构的设计,DNS解析、统一编码等问题的解决,提出了基于地址段控制和Content Graph层分...
- 王启户
- 关键词:远程教育搜索引擎系统数据结构信息检索
- 文献传递
- 一种自适应字长的中文词库的构建方法被引量:1
- 2011年
- 中文搜索引擎中的词库是提高文本信息存储与查找效率的关键.以异或Hash算法为基础,根据对不同字长词出现概率的统计结果,利用词条的机内编码和汉字笔画数,把不同字长的词散列到不同的Hash值区间.实验结果表明该算法可以将Hash值的冲突率降低到0.327‰,该方法可用于计算机语料库建设和中文输入法等自然语言处理过程.
- 詹海生王启户
- 关键词:HASH函数
- 一种自适应字长的中文词库的构建方法
- 中文搜索引擎中的词库是提高文本信息存储与查找效率的关键.以异或Hash算法为基础,根据对不同字长词出现概率的统计结果,利用词条的机内编码和汉字笔画数,把不同字长的词散列到不同的Hash值区间.实验结果表明该算法可以将Ha...
- 詹海生王启户
- 关键词:HASH函数