您的位置: 专家智库 > >

王朝尉

作品数:7 被引量:4H指数:1
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇专利
  • 2篇期刊文章
  • 1篇会议论文

领域

  • 4篇自动化与计算...

主题

  • 4篇寄存器
  • 3篇线程
  • 3篇浮点
  • 2篇单精度
  • 2篇调度
  • 2篇异构
  • 2篇通量
  • 2篇线程调度
  • 2篇面向异构
  • 2篇内存
  • 2篇矩阵
  • 2篇矩阵乘
  • 2篇控制码
  • 2篇汇编指令
  • 2篇基准测试程序
  • 2篇架构
  • 2篇共享内存
  • 2篇AMD_GP...
  • 2篇CUDA
  • 2篇并行计算

机构

  • 7篇中国科学院
  • 1篇中国科学院大...

作者

  • 7篇王朝尉
  • 4篇谭光明
  • 3篇田荣
  • 2篇张秀霞
  • 2篇任江勇
  • 1篇霍志刚
  • 1篇黎雷生
  • 1篇刘建华
  • 1篇马志涛
  • 1篇刘建华

传媒

  • 1篇计算机研究与...
  • 1篇计算机科学

年份

  • 1篇2021
  • 2篇2019
  • 1篇2017
  • 1篇2015
  • 1篇2012
  • 1篇2011
7 条 记 录,以下是 1-7
排序方式:
利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统
本发明涉及一种利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统,包括:根据tile_length对原始矩阵进行分块,每个block处理〈tile_length,tile_length〉维度的输出矩阵C;在共享内...
谭光明郝海波于献智王朝尉
文献传递
面向异构架构的混合精度有限元算法及其CUDA 实现
长期以来,单精度似乎与科学计算无缘,然而从体系结构看,混合精度计算可以充分发挥向量部 件、GPGPU 设备的单精度性能,提供更高效能,如降低通讯带宽要求、提高数据传输和通讯效率等。混合精 度显格式有限元算法,结合材料强非...
刘建华王朝尉任江勇田荣
关键词:并行计算浮点运算
面向异构架构的混合精度有限元算法及其CUDA实现被引量:1
2012年
长期以来,单精度似乎与科学计算无缘,然而从体系结构看,混合精度计算可以充分发挥向量部件、GPGPU设备的单精度性能,提供更高的效能,如降低通讯带宽要求、提高数据传输和通讯效率等。混合精度显格式有限元算法,结合材料强非线性多尺度有限元程序msFEM,实现了GPGPU上的有效加速。实验结果表明:混合精度显格式有限元程序实现了90%以上的计算通过单精度完成,其计算结果与全部使用双精度的结果相一致。该算法可以使得在不支持双精度格式的加速卡上实现科学计算功能。在支持双精度浮点格式的GPU上,混合精度算法与全部采用双精度计算相比其加速效果提高了1.6~1.7倍。
刘建华王朝尉任江勇田荣
关键词:GPGPU有限元并行计算
千万亿次可扩展可容错自由网格数值模拟系统被引量:3
2015年
在千万亿次计算能力的驱动下,数值软件的发展进入了一个以海量并行为基本特征的历史转折期,可扩展和可容错成为大规模数值模拟的两大关键技术.petaPar模拟程序是以对传统数值技术形成优势互补的无网格类方法为切入点,面向千万亿次级计算而开发的下一代新兴通用数值模拟程序.petaPar在统一架构下实现了光滑粒子动力学(smoothed particle hydrodynamics,SPH)和物质点法(material point method,MPM)两种最为成熟和有效的无网格/粒子算法,支持多种强度、失效模型和状态方程;其中MPM支持改进的接触算法,可以处理上百万离散物体的非连续变形和相互作用计算.系统具有以下特点:1)高可扩展.实现单核单Patch极端情形下计算和通信的完全重叠,支持动态负载均衡;2)可容错.支持无人值守变进程重启动,在系统硬件出现局部热故障时可以不中止计算;3)适应硬件体系结构异构架构的变化趋势,同时支持flat MPI和MPI+Pthreads并行模型.程序在Titan千万亿次超级计算机上进行了全系统规模的可扩展性测试,结果表明该代码可线性扩展到26万个CPU核,SPH和MPM的并行效率分别为100%和96%.
黎雷生王朝尉马志涛霍志刚田荣
关键词:多线程动态负载平衡
利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统
本发明涉及一种利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统,包括:根据tile_length对原始矩阵进行分块,每个block处理〈tile_length,tile_length〉维度的输出矩阵C;在共享内...
谭光明郝海波于献智王朝尉
文献传递
GPU FFMA指令在双发射模式下的通量测试方法
本涉及一种GPU FFMA指令在双发射模式下的通量测试方法和系统,其中该测试方法包括对GPU指令的延迟和通量进行测试,获得该GPU指令的延迟周期和GPU指令通量;根据判断寄存器间是否存在bank冲突,选取无bank冲突的...
张秀霞谭光明王朝尉
文献传递
GPU FFMA指令在双发射模式下的通量测试方法
本涉及一种GPU FFMA指令在双发射模式下的通量测试方法和系统,其中该测试方法包括对GPU指令的延迟和通量进行测试,获得该GPU指令的延迟周期和GPU指令通量;根据判断寄存器间是否存在bank冲突,选取无bank冲突的...
张秀霞谭光明王朝尉
共1页<1>
聚类工具0