您的位置: 专家智库 > >

叶煌

作品数:3 被引量:9H指数:1
供职机构:中国科学院计算机网络信息中心更多>>
发文基金:国家自然科学基金中国科学院战略性先导科技专项中国科学院知识创新工程更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 1篇会议论文

领域

  • 2篇自动化与计算...

主题

  • 1篇代数
  • 1篇单指令多数据
  • 1篇第一性原理
  • 1篇短期气候
  • 1篇短期气候预测
  • 1篇映射
  • 1篇数值模拟
  • 1篇气候
  • 1篇气候预测
  • 1篇子程序
  • 1篇子程序库
  • 1篇线性代数
  • 1篇密度泛函
  • 1篇密度泛函理论
  • 1篇矩阵
  • 1篇矩阵乘
  • 1篇矩阵乘法
  • 1篇环流
  • 1篇环流模式
  • 1篇机器翻译

机构

  • 3篇中国科学院
  • 2篇中国科学院大...
  • 1篇中国科学院大...
  • 1篇中国科学院研...
  • 1篇北京搜狗科技...

作者

  • 3篇叶煌
  • 1篇付继芸
  • 1篇王龙
  • 1篇何卷雄
  • 1篇张鉴
  • 1篇曹宗雁
  • 1篇贾伟乐
  • 1篇迟学斌

传媒

  • 2篇计算机应用
  • 1篇2014全国...

年份

  • 1篇2019
  • 1篇2014
  • 1篇2013
3 条 记 录,以下是 1-3
排序方式:
GPU集群下第一原理非局部映射势能计算
2013年
平面波赝势密度泛函(PWP-DFT)计算是材料计算中应用最广泛的方法,其中映射计算是PWP-DFT方法求解自洽迭代中重要的一部分。针对映射势能计算成为软件加速的瓶颈,提出了针对该部分的图形处理器(GPU)加速算法,其中考虑GPU的特点:1)使用了新的并行机制求解非局部映射势能;2)重新设计了数据分布结构;3)减少内存的使用;4)提出了一种解决算法中数据相关问题的方法。最终获得了18~57倍加速,使每步分子动力学模拟最终降为12 s。详细分析了该模块在GPU平台上的测试时间,同时对该算法在GPU集群上的计算瓶颈进行了讨论。
付继芸贾伟乐曹宗雁王龙叶煌迟学斌
关键词:第一性原理密度泛函理论GPU加速
基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化被引量:9
2019年
针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率;其次,针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术;最后,根据语音方向的神经网络中常见的三种矩阵模式设计测试实验,实验中使用RK3399硬件平台运行程序。实验结果表示:方阵模式下单核计算速度为10.23 GFLOPS,达到实测浮点峰值的78.2%;在细长矩阵模式下单核计算速度为6.35 GFLOPS,达到实测浮点峰值的48.1%;在连续小矩阵模式下单核计算速度为2.53 GFLOPS,达到实测浮点峰值19.2%。将优化后的SGEMM算法部署到语音识别神经网络程序中,程序的实际语音识别速度取得了显著提高。
龚鸣清叶煌张鉴卢兴敬陈伟
IAP AGCM4.0与WRF嵌套的并行机制研究
科学院地球系统模式CAS-ESM成功实现了IAP AGCM4.0与WRF的单向嵌套,但其计算时间急剧增加,并行效率有待提高.因此,本文开展了基于二维剖分对大气环流模式IAP AGCM4.0进行并行优化的工作,研究了IAP...
王玉柱姜金荣何卷雄叶煌张贺迟学斌岳天祥
关键词:短期气候预测大气环流模式数值模拟
共1页<1>
聚类工具0