公共文化服务平台

共 8 条记录，以下是 1-9

全选清除导出

排序方式：

CPU/GPU系统负载均衡的可分负载调度被引量：2: 2013年; 针对具有多个片上多核处理器CMP和多个GPU的异构系统,综合考虑多核CPU和GPU的不同计算能力、各级缓存不同容量、CPU和GPU之间通信代价以及GPU内部结构等因素,采取计算与通信重叠、对任务自动划分、GPU端线程块大小和维度自动设置、多个异步流同时传输的方法,通过切换线程块执行以隐藏访存开销,提出一种均衡CPU和GPU负载、高效的可分负载多轮调度算法。采用计算密集型任务Mandelbrot进行实验测试,测试结果表明,与已有算法相比,该算法的调度性能有明显提升。; 彭江泉钟诚; 关键词：CPU 调度算法负载均衡

多核机群上通信高效的整数序列并行排序方法被引量：2: 2013年; 建立一个适用于整数序列排序的数据分配模型,在多核计算节点组成的异构机群上设计通信高效的整数序列并行算法。所提出的数据分配模型依据机群中各节点不同的计算能力、通信速率和存储容量,动态计算出调度分配给各节点的数据块的大小以平衡各个节点的负载。所设计的并行排序算法利用整数序列的特性,主节点采取两轮分发数据与接收结果的方法,从节点运用分桶打包方式返回有序的整数子序列给主节点,主节点采用桶映射方法将各个有序子序列直接整合成最终有序序列,以减少需要耗费较多通信时间的数据归并操作。分析与实验测试结果表明,给出的多核机群上的整数序列并行排序算法高效,具有良好的可扩展性。; 柯琦钟诚陈清媛陆向艳; 关键词：多核机群数据分配

多核系统上任意2序列公共元素的并行查找: 2012年; 文章依据多核系统共享二级缓存和私有一级缓存的容量,采用数据多级分块技术、数据局部性原理和循环并行优化方法,设计了多核系统上存储高效、线程级并行、扩展性好的任意2序列公共元素的并行查找算法。结果表明,该文所给算法充分发挥了多核系统的软硬件特性,获得了良好的加速比和可扩展性。; 蔡德霞钟诚韦兴柳林孔升; 关键词：数据序列多核计算数据局部性

多核计算机上非递归并行计算矩阵乘积被引量：5: 2011年; 提出"延迟隐藏"的数据预取模型,实现计算与访存的重叠操作,以达到共享二级缓存零缺失;给出"基本块"的概念,以简化算法的数据结构和减少存储开销;按基本块连续存储方式存储矩阵元素,从存储层次上优化算法,显著地减少页表缓冲缺失;采取非递归调度基本块的策略,充分利用多核计算机的共享二级缓存来减少访问主存的次数,并且不局限于某种特定的存储结构,实现算法缓存无关.多核计算机上的实验结果表明,给出的非递归计算矩阵乘积的线程级并行算法高效、可扩展.; 鹿中龙钟诚黄华林; 关键词：多核计算机矩阵乘积

融合遗传和蚁群算法并行求解最短公共超串: 2014年; 依据各级缓存容量,将CPU主存中种群个体和蚂蚁个体数据划分存储到一级、二级和三级缓存中,以减少并行计算过程中数据在各级存储之间的传输开销,在CPU与GPU之间采取异步传送和不完全传送数据、GPU多个内核函数异步执行多个流的方法,设置GPU block线程数量为16的倍数、GPU共享存储器划分大小为32倍的bank,使用GPU常量存储器存储交叉概率、变异概率等需频繁访问的只读参数,将输入串矩阵和重叠部分长度矩阵只读大数据结构绑定到GPU纹理存储器,设计实现了一种多核CPU和GPU协同求解最短公共超串问题的计算、存储和通信高效的并行算法。求解多种规模的最短公共超串问题的实验结果表明,多核CPU与GPU协同并行算法比串行算法快70倍以上。; 伍世刚钟诚; 关键词：GPU计算遗传算法蚁群算法

多核机群主节点并发发送数据的可分负载调度: 2014年; 对于节点计算、通信与存储能力不同、节点由多个多核处理器(多个片上多处理器)组成且共享L3cache的机群系统,采取计算与传输重叠模式,提出了主节点以多进程方式并发发送数据给从节点的可分负载调度模型.该调度模型自适应节点具有不同的计算、通信和存储能力,动态计算、确定调度轮数和每轮调度分配给各从节点的负载块规模,以平衡各节点的计算负载、减少节点之间的通信开销,缩短任务调度长度.依据各节点中的L3cache,L2cache和L1cache的可用存储容量,提出了对节点主存中接收到的负载块进行多级缓存划分的数据分配方法,以确保分配给节点中各个多核处理器、各个内核的负载平衡.基于提出的多核机群节点间可分负载调度模型和节点内多级存储数据分配方法,设计实现了节点拥有多个多核处理器的异构机群上通信和存储高效的k-选择并行算法.在曙光TC5000A多核机群系统上,测试了主节点并行与串行发送数据给从节点的任务调度方式、各级缓存利用率、每个核心执行不同数目的线程对并行算法运行性能的影响.实验结果表明:基于主节点并发发送数据给从节点的调度模型设计的k-选择并行算法,其运行性能优于基于主节点串行发送数据给从节点的调度模型设计的k-选择并行算法;L3cache和L2cache利用率大小对算法运行性能影响较大;当L3cache,L2cache和L1cache利用率取其优化组合值、每个核心运行3个线程时,算法所需的运行时间最短.; 钟诚蔡德霞杨锋; 关键词：并行调度

CPU/GPU系统上存储高效的RNA二级结构预测算法被引量：2: 2014年; 通过建立映射变换函数来改进基于最小自由能的RNA二级结构预测计算模型,分析证明了改进后的计算模型与原计算模型的等价性,利用改进后的计算模型使得GPU每个warp线程束内的线程并行计算矩阵元素时其所需的数据处于全局存储器同一行中,以支持直接并行读取矩阵元素,显著地减少多线程并行访问全局存储器的次数;充分利用GPU纹理存储器、共享存储器及常量存储器,以减少查找表的时间;设计实现多核CPU/单GPU系统、多核CPU/多GPU系统上存储高效的RNA二级结构预测并行算法.实验结果表明,与已有的RNA二级结构预测算法相比,本文提出的算法效率更高.; 郑明钟诚; 关键词：RNA二级结构预测 GPU计算动态规划

多核系统上任意两序列公共元素的并行查找: 依据多核系统共享二级缓存和私有一级缓存的容量,采用数据多级分块技术、数据局部性性原理和循环并行优化方法,设计了多核系统上存储高效、线程级并行、扩展性好的任意两序列公共元素的并行查找算法。理论分析与实验结果表明,本文给出的...; 蔡德霞钟诚韦兴柳林孔升; 关键词：数据序列多核计算数据局部性; 文献传递

访存高效并行求解(l,d)-Motif发现问题: 2014年; 充分利用多核结构的共享三级缓存、私有二级和一级缓存,将采用Modeling算法求解(l,d)-Motif发现问题过程中产生的大量不同位置组合的数据,以多轮方式调度分配到各级缓存中,通过线程绑定以平衡核心负载,设计实现了一种访存高效的(l,d)-Motif发现线程级并行算法.实验结果表明,与已有的并行求解(l,d)-Motif发现算法相比,本文给出的算法更高效、具有较好的加速比和可扩展性,并且能够成功求解更长l的(l,d)-Motif发现问题.; 张静钟诚李智; 关键词：线程级并行

全选清除导出

共1页<1>

国家自然科学基金(60963001)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(60963001)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈