何龙
- 作品数:2 被引量:9H指数:1
- 供职机构:中国人民大学信息学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- FusionDB:基于分布式查询引擎和HDFS的SPARQL查询处理系统被引量:1
- 2015年
- 近年来,互联网上的RDF三元组数量增长迅速,传统的单机SPARQL查询处理技术已不能满足实际需要.现有的分布式SPARQL查询处理系统可以分为2类,基于Hadoop的,或是基于数据库集群的.前者主要采用Map?Reduce来处理查询,效率较低;后者则继承了传统数据库集群的缺陷,可扩展性较差.提出一个新颖的SPARQL查询处理系统FusionDB.该系统采用分布式查询处理引擎和HDFS,这样既可以受益于传统的分布式数据库技术,如分布式连接、流水线、负载均衡等,又从新兴的Hadoop技术中得到了良好的容错能力和高可扩展性.为了进一步加速查询处理的效率,FusionDB还在HDFS文件上增加了注入式索引.实验表明,相比于传统的系统,FusionDB在性能上具有明显的优势.
- 高阳何龙侯佳佳陈晋川杜小勇
- 关键词:SPARQL查询重写HDFS索引
- 一种面向HDFS的多层索引技术被引量:8
- 2017年
- SOH(SQL over HDFS)系统通常将数据存储于分布式文件系统HDFS(Hadoop distributed file system)中,采用Map/Reduce或分布式查询引擎来处理查询任务.得益于HDFS以及Map/Reduce的容错能力和可扩展性,SOH系统可以很好地应对数据规模的飞速增长,完成分析型查询处理.然而,在处理选择型查询或交互式查询时,这类系统暴露出了性能上的缺陷.提出一种通用的索引技术,可以应用于SOH系统中,以提高其查询处理的效率.分析了SOH系统访问HDFS文件的过程,指出了其中影响数据加载时间的关键因素.提出了split层和split内部双层索引机制;设计并实现了聚集索引和非聚集索引;最后,在标准数据集上进行了大量实验,并与现有基于HDFS的索引技术进行了比较.实验结果表明,所提出的索引技术可以有效地提高查询处理的效率.
- 何龙陈晋川杜小勇
- 关键词:查询索引HDFS大数据