您的位置: 专家智库 > >

国家自然科学基金(60963001)

作品数:8 被引量:11H指数:2
相关作者:钟诚蔡德霞黄华林鹿中龙彭江泉更多>>
相关机构:广西大学广西财经学院广西科技信息网络中心更多>>
发文基金:国家自然科学基金广西研究生教育创新计划项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 8篇期刊文章
  • 1篇会议论文

领域

  • 9篇自动化与计算...

主题

  • 5篇多核
  • 3篇多核计算
  • 2篇调度
  • 2篇多核机群
  • 2篇多核系统
  • 2篇异构
  • 2篇数据局部性
  • 2篇数据序列
  • 2篇机群
  • 2篇核系统
  • 2篇负载调度
  • 2篇GPU计算
  • 1篇递归
  • 1篇调度算法
  • 1篇动态规划
  • 1篇多核计算机
  • 1篇遗传算法
  • 1篇蚁群
  • 1篇蚁群算法
  • 1篇异构机群

机构

  • 9篇广西大学
  • 1篇广西财经学院
  • 1篇广西科技信息...

作者

  • 9篇钟诚
  • 3篇蔡德霞
  • 2篇林孔升
  • 2篇韦兴柳
  • 1篇陈清媛
  • 1篇陆向艳
  • 1篇李智
  • 1篇伍世刚
  • 1篇郑明
  • 1篇杨锋
  • 1篇柯琦
  • 1篇张静
  • 1篇彭江泉
  • 1篇鹿中龙
  • 1篇黄华林

传媒

  • 2篇计算机应用
  • 2篇小型微型计算...
  • 1篇计算机研究与...
  • 1篇合肥工业大学...
  • 1篇微电子学与计...
  • 1篇计算机工程与...

年份

  • 4篇2014
  • 2篇2013
  • 1篇2012
  • 2篇2011
8 条 记 录,以下是 1-9
排序方式:
CPU/GPU系统负载均衡的可分负载调度被引量:2
2013年
针对具有多个片上多核处理器CMP和多个GPU的异构系统,综合考虑多核CPU和GPU的不同计算能力、各级缓存不同容量、CPU和GPU之间通信代价以及GPU内部结构等因素,采取计算与通信重叠、对任务自动划分、GPU端线程块大小和维度自动设置、多个异步流同时传输的方法,通过切换线程块执行以隐藏访存开销,提出一种均衡CPU和GPU负载、高效的可分负载多轮调度算法。采用计算密集型任务Mandelbrot进行实验测试,测试结果表明,与已有算法相比,该算法的调度性能有明显提升。
彭江泉钟诚
关键词:CPU调度算法负载均衡
多核机群上通信高效的整数序列并行排序方法被引量:2
2013年
建立一个适用于整数序列排序的数据分配模型,在多核计算节点组成的异构机群上设计通信高效的整数序列并行算法。所提出的数据分配模型依据机群中各节点不同的计算能力、通信速率和存储容量,动态计算出调度分配给各节点的数据块的大小以平衡各个节点的负载。所设计的并行排序算法利用整数序列的特性,主节点采取两轮分发数据与接收结果的方法,从节点运用分桶打包方式返回有序的整数子序列给主节点,主节点采用桶映射方法将各个有序子序列直接整合成最终有序序列,以减少需要耗费较多通信时间的数据归并操作。分析与实验测试结果表明,给出的多核机群上的整数序列并行排序算法高效,具有良好的可扩展性。
柯琦钟诚陈清媛陆向艳
关键词:多核机群数据分配
多核系统上任意2序列公共元素的并行查找
2012年
文章依据多核系统共享二级缓存和私有一级缓存的容量,采用数据多级分块技术、数据局部性原理和循环并行优化方法,设计了多核系统上存储高效、线程级并行、扩展性好的任意2序列公共元素的并行查找算法。结果表明,该文所给算法充分发挥了多核系统的软硬件特性,获得了良好的加速比和可扩展性。
蔡德霞钟诚韦兴柳林孔升
关键词:数据序列多核计算数据局部性
多核计算机上非递归并行计算矩阵乘积被引量:5
2011年
提出"延迟隐藏"的数据预取模型,实现计算与访存的重叠操作,以达到共享二级缓存零缺失;给出"基本块"的概念,以简化算法的数据结构和减少存储开销;按基本块连续存储方式存储矩阵元素,从存储层次上优化算法,显著地减少页表缓冲缺失;采取非递归调度基本块的策略,充分利用多核计算机的共享二级缓存来减少访问主存的次数,并且不局限于某种特定的存储结构,实现算法缓存无关.多核计算机上的实验结果表明,给出的非递归计算矩阵乘积的线程级并行算法高效、可扩展.
鹿中龙钟诚黄华林
关键词:多核计算机矩阵乘积
融合遗传和蚁群算法并行求解最短公共超串
2014年
依据各级缓存容量,将CPU主存中种群个体和蚂蚁个体数据划分存储到一级、二级和三级缓存中,以减少并行计算过程中数据在各级存储之间的传输开销,在CPU与GPU之间采取异步传送和不完全传送数据、GPU多个内核函数异步执行多个流的方法,设置GPU block线程数量为16的倍数、GPU共享存储器划分大小为32倍的bank,使用GPU常量存储器存储交叉概率、变异概率等需频繁访问的只读参数,将输入串矩阵和重叠部分长度矩阵只读大数据结构绑定到GPU纹理存储器,设计实现了一种多核CPU和GPU协同求解最短公共超串问题的计算、存储和通信高效的并行算法。求解多种规模的最短公共超串问题的实验结果表明,多核CPU与GPU协同并行算法比串行算法快70倍以上。
伍世刚钟诚
关键词:GPU计算遗传算法蚁群算法
多核机群主节点并发发送数据的可分负载调度
2014年
对于节点计算、通信与存储能力不同、节点由多个多核处理器(多个片上多处理器)组成且共享L3cache的机群系统,采取计算与传输重叠模式,提出了主节点以多进程方式并发发送数据给从节点的可分负载调度模型.该调度模型自适应节点具有不同的计算、通信和存储能力,动态计算、确定调度轮数和每轮调度分配给各从节点的负载块规模,以平衡各节点的计算负载、减少节点之间的通信开销,缩短任务调度长度.依据各节点中的L3cache,L2cache和L1cache的可用存储容量,提出了对节点主存中接收到的负载块进行多级缓存划分的数据分配方法,以确保分配给节点中各个多核处理器、各个内核的负载平衡.基于提出的多核机群节点间可分负载调度模型和节点内多级存储数据分配方法,设计实现了节点拥有多个多核处理器的异构机群上通信和存储高效的k-选择并行算法.在曙光TC5000A多核机群系统上,测试了主节点并行与串行发送数据给从节点的任务调度方式、各级缓存利用率、每个核心执行不同数目的线程对并行算法运行性能的影响.实验结果表明:基于主节点并发发送数据给从节点的调度模型设计的k-选择并行算法,其运行性能优于基于主节点串行发送数据给从节点的调度模型设计的k-选择并行算法;L3cache和L2cache利用率大小对算法运行性能影响较大;当L3cache,L2cache和L1cache利用率取其优化组合值、每个核心运行3个线程时,算法所需的运行时间最短.
钟诚蔡德霞杨锋
关键词:并行调度
CPU/GPU系统上存储高效的RNA二级结构预测算法被引量:2
2014年
通过建立映射变换函数来改进基于最小自由能的RNA二级结构预测计算模型,分析证明了改进后的计算模型与原计算模型的等价性,利用改进后的计算模型使得GPU每个warp线程束内的线程并行计算矩阵元素时其所需的数据处于全局存储器同一行中,以支持直接并行读取矩阵元素,显著地减少多线程并行访问全局存储器的次数;充分利用GPU纹理存储器、共享存储器及常量存储器,以减少查找表的时间;设计实现多核CPU/单GPU系统、多核CPU/多GPU系统上存储高效的RNA二级结构预测并行算法.实验结果表明,与已有的RNA二级结构预测算法相比,本文提出的算法效率更高.
郑明钟诚
关键词:RNA二级结构预测GPU计算动态规划
多核系统上任意两序列公共元素的并行查找
依据多核系统共享二级缓存和私有一级缓存的容量,采用数据多级分块技术、数据局部性性原理和循环并行优化方法,设计了多核系统上存储高效、线程级并行、扩展性好的任意两序列公共元素的并行查找算法。理论分析与实验结果表明,本文给出的...
蔡德霞钟诚韦兴柳林孔升
关键词:数据序列多核计算数据局部性
文献传递
访存高效并行求解(l,d)-Motif发现问题
2014年
充分利用多核结构的共享三级缓存、私有二级和一级缓存,将采用Modeling算法求解(l,d)-Motif发现问题过程中产生的大量不同位置组合的数据,以多轮方式调度分配到各级缓存中,通过线程绑定以平衡核心负载,设计实现了一种访存高效的(l,d)-Motif发现线程级并行算法.实验结果表明,与已有的并行求解(l,d)-Motif发现算法相比,本文给出的算法更高效、具有较好的加速比和可扩展性,并且能够成功求解更长l的(l,d)-Motif发现问题.
张静钟诚李智
关键词:线程级并行
共1页<1>
聚类工具0