王海涛
- 作品数:5 被引量:9H指数:2
- 供职机构:深圳大学计算机与软件学院更多>>
- 发文基金:国家自然科学基金深圳市基础研究计划项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 构建信息检索系统:全局索引还是局部索引?
- 2013年
- 当今社会在生产与生活中产生的数据越来越多,要在海量的数据中搜索有用的信息,信息检索系统(IRS:Information Retrieval System,比如百度、谷歌等)是必不可少的工具。一个信息检索系统,特别是基于大规模数据集的信息检索系统,只有建立索引才能满足用户的检索需求,索引的好坏直接决定了信息检索系统的成败。数十年以来,对于信息检索系统中索引如何构建的研究一直没有中断,研究主要集中在对全局索引(Global Indexing)与局部索引(Local Indexing)及其混合类型(Hybrid Indexing)等结构的比较与探讨。本文详细介绍了几种索引的架构及其优缺点,回顾了相关的研究成果,分析了实际应用系统。最后,给出我们的观点与解决方案。
- 王海涛赵艳琼韩家鑫岳磅
- 关键词:信息检索混合索引大数据分布式系统
- 基于标题的中文新闻分类研究被引量:1
- 2013年
- 如何快捷、准确、全面地检索互联网信息是互联网时代的重要问题。网络新闻比传统纸质媒体新闻速度更快、内容更丰富、形式更灵活生动,正逐渐取代传统新闻媒体成为很多人获取新闻信息的主要途径。然而,面对快速更新的大量新闻信息,传统的手工分类方式无法满足用户的需求。新闻的主要内容一般都是以文本的方式呈现,因此,利用文本自动分类技术对网络新闻进行自动分类是解决手工新闻分类问题的一个有效途径。由于网络新闻信息形式多样,很多新闻内容完全是由图片或者视频组成,不包含文本内容。本文提出通过新闻标题对网络新闻进行分类的方法,比通过内容进行分类的方法分类速度更快,并且有更强的适应性,可对无文本内容的新闻(如图片新闻、标题新闻等)进行分类。本文创建了基于标题的文本分类模型;从网络上获取新闻语料,验证模型的工作情况;并通过与基于内容的文本分类方法比较,验证基于标题的文本分类模型的优劣。本文构建了基于标题的两步分类系统,所提出的类别唯一特征,对于可分样本可以实现高分类准确率。
- 王海涛赵艳琼岳磅
- 关键词:文本分类新闻分类语义相似度
- 基于wordNet的类别可拓展网页分类系统(英文)被引量:1
- 2009年
- 基于文本写作常采用一个意思由多个不同写法的单词来表述,研究词义文本分类法被用来替代使用关键词分类算法以提高分类准确率.分析wordNet内Synset架构,认为一个兼顾词义以及词义间关系的词义文本分类系统可应用到网页分类中.该系统同时注意到固定的文本类别结构以及结构内不断增长的文件数目间的区别,加入了基于类别信息聚类方法的类别拓展的功能.仿真实验证明,该分类系统与现有的基于语义的分类系统相比,在分类准确度性能上能提高13%.基于类别信息类聚的文本拓展功能与采用基于相似度的类聚方法的系统相比获得了一个质量更高的新增类别.
- 彭小刚明仲王海涛周景洲
- 关键词:信息提取网页分类WORDNET
- 并行程序设计的短课程教学方法被引量:4
- 2011年
- 并行程序设计课程定位为跨专业研究生选修课程,宜采用小班级短课程教学模式。本文结合高等教育学和高等教育心理学的基本原理,将并行程序设计课程分为三大部分:并行程序设计的基本知识、并行程序设计的基本方法和并行程序设计的实验环节。在讲授过程中,充分利用小班级短课程的优点,采用结构教学观,重点培养学生的并行程序设计能力。
- 陆克中刘刚王海涛
- 关键词:并行程序设计MPI
- 大数据系统计算技术展望被引量:3
- 2018年
- 针对大数据系统计算技术现状与问题,系统地介绍了大数据系统计算技术国家工程实验室的大数据系统计算技术创新平台。创新平台以研制自主可控、通用性强的大数据计算平台为核心目标,解决高性能大数据计算中的共性问题,开展大数据示范性应用研发。创新平台的建设将提升国家大数据创新能力,满足我国大数据技术与应用重大需求,促进我国大数据技术服务产业发展壮大,助力我国大数据"双创"生态环境成熟完善。
- 王海涛毛睿毛睿
- 关键词:国家工程实验室