李甜甜 作品数:13 被引量:150 H指数:6 供职机构: 东北大学计算机科学与工程学院 更多>> 发文基金: 国家自然科学基金 中央高校基本科研业务费专项资金 中国博士后科学基金 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
数据密集型计算中负载均衡的数据布局方法 被引量:5 2013年 广泛用于数据密集型计算的MapReduce模型将计算部署到数据端并行执行,数据布局将不再只影响存储本身,还影响计算效率;节点上存储数据的特征决定该节点上任务的执行效率,负载均衡从传统的服务器管理或任务调度研究转变成为以提高并行性为目的的数据布局研究,为此,分析了数据密集型计算和MapReduce环境中数据布局的特点,提出了负载均衡的数据布局目标,并提出在特定环境下实现负载均衡的数据布局方法,最后通过实验证明了数据布局目标和数据布局方法的有效性.理论和实验结果证明,新提出的布局方法能有效地提高MapReduce应用的并行性,优化其执行效率. 宋杰 李甜甜 闫振兴 朱志良关键词:数据密集型计算 负载均衡 云计算 大数据存储系统中负载均衡的数据迁移算法 被引量:3 2016年 认为在大数据时代,数据迁移已成为以数据为中心的挖掘分析操作的基础环节。通过对大数据存储系统中的数据迁移进行需求分析,首先提出了数据迁移模型,并分析了影响迁移性能的因素;然后基于上述模型,从作业层面提出一种负载均衡的数据迁移算法。该算法能够规避数据访问热点,提高数据迁移效率。 李甜甜 王智 宋杰关键词:大数据 数据迁移 负载均衡 一种优化MapReduce系统能耗的数据布局算法 被引量:8 2015年 在云计算技术和大数据技术的推动下,IT资源的规模不断扩大,其能耗问题日益显著.研究表明:节点资源利用率不高、资源空闲导致的能源浪费,是目前大规模分布式系统的主要问题之一.研究了MapReduce系统的能耗优化.传统的基于软件技术的能耗优化方法多采用负载集中和节点开关算法,但由于MapReduce任务的特点,集群节点不仅要完成运算,还需要存储数据,因此,传统方法难以应用到MapReduce集群.提出了良好的数据布局可以优化集群能耗.基于此,首先定义了数据布局的能耗优化目标,并提出相应的数据布局算法;接着,从理论上证明该算法能够实现数据布局的能耗优化目标;最后,在异构集群中部署3种数据布局不同的MapReduce系统,通过对比三者在执行CPU密集型、I/O密集型和交互型这3种典型运算时的集群能耗,验证了所提出的数据布局算法的能耗优化效果.理论和实验结果均表明,所提出的布局算法能够有效地降低MapReduce集群的能耗.上述工作都将促进高能耗计算和大数据分析的应用. 宋杰 王智 李甜甜 于戈关键词:能耗优化 MAPREDUCE 大数据 云数据管理系统能耗基准测试与分析 被引量:24 2013年 云数据管理系统是一种新兴的数据管理系统.为了研究云数据管理系统的能耗优化,实现"绿色计算",首先要定义能耗的度量模型和基准测试方法,分析系统的能耗特点.目前云数据管理系统的基准测试主要集中在性能方面,对能耗方面的评估和优化工作很少;对测量仪器、测试手段、测试用例以及能耗基本规律的研究存在空白.文中提出了一种能耗的度量模型和数学表达;定义了一组数据装载、查询和分析用例来测试云数据管理系统的能耗;设计了系统能耗的测量方法;分析了若干云数据管理系统在执行数据装载、读取、查询、聚集和连接等操作时的能耗特征,提出了通过降低"等待能耗"而进行云数据管理系统的能耗优化.大量实验数据证明,尽管云计算被认为是一种绿色计算,但文中测试的云数据管理系统在能耗方面差异较大,需要对部分系统进行进一步的优化. 宋杰 李甜甜 朱志良 鲍玉斌 于戈关键词:能耗 MAPREDUCE 大数据 云计算 基于角色和交互的SaaS软件生命周期推演模型 被引量:2 2012年 采用模拟SaaS生态系统中角色和交互的方法来推演SaaS软件生命周期的各个阶段.首先提出SaaS生态系统中各个组成部分和基本角色;然后定义了SaaS软件生命周期中角色和交互模型;随后模拟大量角色交互路径,从中选取最优路径并加以调整;研究基于该优化路径设计生命周期的模拟方法,包括交互角色和交互时间的选择算法;最后通过角色和交互在时间轴上的聚类,推演出SaaS软件生命周期的各个阶段.理论和实验结果分析证明该模型有着良好的推演效果. 宋杰 李甜甜 贾路路 朱志良关键词:SAAS 角色 软件生命周期 一种能效优化的MapReduce资源比模型 被引量:21 2015年 随着云计算的快速发展,IT资源规模的不断扩大导致能耗问题日益凸显.为降低MapReduce编程模型带来的高能耗,文中研究Map/Reduce任务的资源消费特征及该特征与能效的关系,旨在寻找一种能够指导资源分配和任务调度的资源模型,进而实现能效优化.文中提出任务的能效与任务被分配的资源量无关,而与其被分配的各种资源的资源量比例相关,且存在一个"最佳资源比"使得能效达到最高.基于此,文中首先提出了普适的资源和能效模型,从模型层面证明最佳资源比和能效之间的关系,量化空闲资源量和空闲能耗;随后分析MapReduce编程模型,将普适资源比模型变换到MapReduce下.通过抽象的数据的"生产者-消费者"模式,求解Map/Reduce任务的最佳资源比;最后,通过实验从任务能效和空闲能耗两个角度证明了最佳资源比的存在,并根据实验结果,对MapReduce执行过程进行划分,给出了部分Map/Reduce任务的最佳资源比.最佳资源比的提出和求解将有利于基于该最佳资源比的任务调度和资源分配算法的研究,进而实现Map/Reduce任务能效的提高. 宋杰 刘雪冰 朱志良 李甜甜 赵大哲 于戈关键词:云计算 能效 MAPREDUCE MapReduce连接查询的I/O代价研究 被引量:9 2015年 数据的指数级增长给数据管理和分析带来了严峻的挑战.连接查询是数据分析中一种常用运算,而Map Reduce是一种用于大规模数据集并行处理的编程模型,研究基于Map Reduce的连接查询代价评估和查询优化,有着学术意义和应用价值.Map Reduce连接查询算法的性能主要取决于I/O代价(包括本地和网络I/O),而I/O代价与数据集以及连接运算的特征参数相关,通过对二元连接的I/O代价评估可以优化多元连接执行计划.基于此,首先提出了二元连接查询的I/O代价模型;随后,对现有二元连接算法进行形式化定义和简单扩展,归纳出6种基于Map Reduce连接查询算法,并通过算法白盒分析定义它们的I/O代价函数;最后,提出一种多元连接最优执行计划的选择算法.通过实验表明I/O代价模型的正确性且能够准确地反映算法的性能优劣. 宋杰 李甜甜 朱志良 鲍玉斌 于戈关键词:连接查询 MAPREDUCE 查询优化 基于MapReduce的多元连接优化方法 连接是数据分析最常用的操作之一,MapReduce是广泛用于大规模数据分析处理的编程模型,它给多元连接优化带来新的挑战:传统的优化方法不能简单地适用到MapReduce中;MapReduce连接执行算法尚存优化空间.针对... 李甜甜 于戈 郭朝鹏 宋杰关键词:数据处理 优化运行 一种改进的数据库Sharding方法 Sharding (Shared Nothing)是用于开源数据库的一种水平扩展解决方案,包含两个主要步骤:逻辑划分和物理映射。逻辑划分将数据划分成逻辑块Chunk;物理映射将Chunk映射到Shard上。对于前者,现有... 李甜甜 于戈 王智 宋杰面向代码的软件能耗优化研究进展 被引量:10 2016年 面向代码的软件能耗优化从程序设计和编码角度优化软件系统的能耗,能够很好地弥补面向硬件和面向资源的能耗优化方法过多依赖硬件环境、普适性较差、粒度过大,且难以在软件开发过程中应用等缺点.该文综述了近年来面向代码软件能耗优化领域的主要研究成果,总结了能耗优化的基本方法和技术层次以及面向代码的软件能耗优化基本思路;随后从面向代码的软件能耗估算方法和优化方法两个方面对现有工作加以梳理,逐一介绍了相关优化工具.该文提出了若干进一步研究的问题.首先,该文重定义面向代码的软件能耗评估模型和方法应该满足的特性,并提出代码的运行时能耗(Runtime Energy Consumption)和视在能耗(Apparent Energy Consumption)的概念;其次,该文认为现有面向代码的能耗优化技术过于具体,或针对具体的代码,或针对具体的功能,缺乏抽象层次的优化技术,缺乏算法层面的能耗优化方法,且没有充分考虑编程语言特征,尤其是面向对象语言特征;最后,该文提出算法能耗复杂度这一新观点,指出仍然存在的问题和可能的解决办法. 宋杰 孙宗哲 李甜甜 鲍玉斌 于戈关键词:能耗优化