公共文化服务平台

共 7 条记录，以下是 1-7

全选清除导出

排序方式：

利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统: 本发明涉及一种利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统，包括：根据tile_length对原始矩阵进行分块，每个block处理〈tile_length,tile_length〉维度的输出矩阵C；在共享内...; 谭光明郝海波于献智王朝尉; 文献传递

面向异构架构的混合精度有限元算法及其CUDA 实现: 长期以来，单精度似乎与科学计算无缘，然而从体系结构看，混合精度计算可以充分发挥向量部件、GPGPU 设备的单精度性能，提供更高效能，如降低通讯带宽要求、提高数据传输和通讯效率等。混合精度显格式有限元算法，结合材料强非...; 刘建华王朝尉任江勇田荣; 关键词：并行计算浮点运算

面向异构架构的混合精度有限元算法及其CUDA实现被引量：1: 2012年; 长期以来,单精度似乎与科学计算无缘,然而从体系结构看,混合精度计算可以充分发挥向量部件、GPGPU设备的单精度性能,提供更高的效能,如降低通讯带宽要求、提高数据传输和通讯效率等。混合精度显格式有限元算法,结合材料强非线性多尺度有限元程序msFEM,实现了GPGPU上的有效加速。实验结果表明:混合精度显格式有限元程序实现了90%以上的计算通过单精度完成,其计算结果与全部使用双精度的结果相一致。该算法可以使得在不支持双精度格式的加速卡上实现科学计算功能。在支持双精度浮点格式的GPU上,混合精度算法与全部采用双精度计算相比其加速效果提高了1.6～1.7倍。; 刘建华王朝尉任江勇田荣; 关键词：GPGPU 有限元并行计算

千万亿次可扩展可容错自由网格数值模拟系统被引量：3: 2015年; 在千万亿次计算能力的驱动下,数值软件的发展进入了一个以海量并行为基本特征的历史转折期,可扩展和可容错成为大规模数值模拟的两大关键技术.petaPar模拟程序是以对传统数值技术形成优势互补的无网格类方法为切入点,面向千万亿次级计算而开发的下一代新兴通用数值模拟程序.petaPar在统一架构下实现了光滑粒子动力学(smoothed particle hydrodynamics,SPH)和物质点法(material point method,MPM)两种最为成熟和有效的无网格/粒子算法,支持多种强度、失效模型和状态方程;其中MPM支持改进的接触算法,可以处理上百万离散物体的非连续变形和相互作用计算.系统具有以下特点:1)高可扩展.实现单核单Patch极端情形下计算和通信的完全重叠,支持动态负载均衡;2)可容错.支持无人值守变进程重启动,在系统硬件出现局部热故障时可以不中止计算;3)适应硬件体系结构异构架构的变化趋势,同时支持flat MPI和MPI+Pthreads并行模型.程序在Titan千万亿次超级计算机上进行了全系统规模的可扩展性测试,结果表明该代码可线性扩展到26万个CPU核,SPH和MPM的并行效率分别为100%和96%.; 黎雷生王朝尉马志涛霍志刚田荣; 关键词：多线程动态负载平衡

利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统: 本发明涉及一种利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统，包括：根据tile_length对原始矩阵进行分块，每个block处理〈tile_length,tile_length〉维度的输出矩阵C；在共享内...; 谭光明郝海波于献智王朝尉; 文献传递

GPU FFMA指令在双发射模式下的通量测试方法: 本涉及一种GPU FFMA指令在双发射模式下的通量测试方法和系统，其中该测试方法包括对GPU指令的延迟和通量进行测试，获得该GPU指令的延迟周期和GPU指令通量；根据判断寄存器间是否存在bank冲突，选取无bank冲突的...; 张秀霞谭光明王朝尉; 文献传递

GPU FFMA指令在双发射模式下的通量测试方法: 本涉及一种GPU FFMA指令在双发射模式下的通量测试方法和系统，其中该测试方法包括对GPU指令的延迟和通量进行测试，获得该GPU指令的延迟周期和GPU指令通量；根据判断寄存器间是否存在bank冲突，选取无bank冲突的...; 张秀霞谭光明王朝尉

全选清除导出

共1页<1>

王朝尉