邱明明
- 作品数:4 被引量:3H指数:1
- 供职机构:清华大学软件学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 大数据系统开发中的构件自动选型与参数配置
- 大数据应用系统包含数据的采集、存储、分析、挖掘、可视化等多个技术环节,各个环节都存在多种解决方案,涉及到的各类系统有数百种之多,且系统配置较为复杂,这给企业的大数据应用系统构建带来了极大的挑战。针对大数据应用系统开发中构...
- 钟雨邱明明黄向东
- 大数据系统开发中的构件自动选型与参数配置
- 2016年
- 大数据应用系统包含数据的采集、存储、分析、挖掘、可视化等多个技术环节,各个环节都存在多种解决方案,涉及到的各类系统有数百种之多,且系统配置较为复杂,这给企业的大数据应用系统构建带来了极大的挑战。针对大数据应用系统开发中构件选型的难题,通过建立规范化的需求指标,并采用决策树模型实现了大数据构件的自动选型。从几个主流的分布式存储系统出发,以Cassandra为例,利用多元回归拟合的方法针对硬件参数建立相应的性能模型,将用户需求作为输入,利用性能模型进行系统硬件参数配置;通过研究系统原理、架构、特点及应用场景,构建软件参数配置知识库指导软件参数的配置,从而解决了大数据系统开发中的构件自动选型和参数配置问题。
- 钟雨邱明明黄向东
- 关键词:决策树模型
- 支持时序数据聚合函数的索引被引量:3
- 2016年
- 时序数据是工业新发展的关键,其中针对时序数据的聚合操作成为主要的应用场景之一。传统关系型数据库不足以支撑海量的时序数据,而现有的NoSQL数据库对时序数据的聚合操作显得低效耗时。该文提出了一种结合概要表和线段树思想的支持时序数据聚合操作的高效索引机制,并实现了基于这种索引机制的查询算法。该查询算法将概要表的思想引入NoSQL中,缩小了待查询数据集,并通过在概要表上建立概要森林的形式,将最坏情况下的待查询数据集进一步缩小为索引个数的lbn倍。此外,该算法通过计算直接定位出待查询的一系列索引数据,有效避免了一般树形结构的递归遍历操作,减少了大量的磁盘开销。最后,通过与一般索引机制的查询对比实验,验证了该索引机制的可用性和高效性。
- 黄向东郑亮帆邱明明张金瑞王建民
- 关键词:索引时序数据
- 一种支持时序数据聚合函数的索引
- 以传感器数据为代表的时序数据是工业新发展的关键,其中,针对时序数据的聚合操作成为主要的应用场景之一。传统关系型数据库不足以支撑海量的时序数据,而现有的NoSQL数据库对时序数据的聚合操作显得低效耗时。本文提出了一种结合概...
- 黄向东郑亮帆邱明明张金瑞