袁良
- 作品数:22 被引量:71H指数:6
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金北京市自然科学基金中国科学院战略性先导科技专项更多>>
- 相关领域:自动化与计算机技术经济管理天文地球更多>>
- 2022年中国高性能计算机发展现状分析与展望被引量:5
- 2022年
- 【目的】本文根据2022年11月发布的中国高性能计算机TOP 100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了深入分析。【结果】中国TOP 100的入门性能门槛仍然超过TOP 500。中国TOP 100上的超级计算系统冠军再次更新,其Linpack性能超过200 PFlops0联想为系统数量冠军,联想、曙光和浪潮三强争霸的局面逐步演化为联想和浪潮的竞争。算力服务这一应用领域的占比继续增长,充分反映当前算力经济发展趋势。【结论】本文根据二十一届排行榜的性能数据,详细阐述了算力经济发展现状,并对未来中国大陆高性能计算机的发展趋势进行了分析预测。
- 张云泉袁良袁国兴李希代
- 关键词:高性能计算机TOP100排行榜
- 天气预报模型WRF中复杂Stencil性能优化
- 2024年
- 天气研究与预报模式(WRF)是一种应用广泛的中尺度数值天气预报系统,在大气研究和业务预报领域发挥着重要作用。Stencil计算是科学工程应用中一类常见的嵌套循环计算模式,WRF中对大气动力学和热力学方程的数值求解引出了大量空间网格上的复杂Stencil计算,存在多维度、多变量、物理模型边界特殊性、物理和动力学过程的复杂性等模型特征。文中深入剖析了WRF中典型的Stencil计算模式,识别抽象出典型Stencil循环中存在的“中间变量”概念,围绕其设计实现了3种优化方案,即中间变量计算合并、中间变量降维存储以及中间变量提取,有效提高了数据局部性,改善了数据重用率和空间复用率,降低了冗余计算和访存开销。结果表明,经优化方案重构的WRF 4.2典型Stencil热点函数在Intel CPU和Hygon CPU上均可获得良好的性能加速,最高加速比达21.3%和17.8%。
- 邸健强袁良张云泉张思佳
- 关键词:WRF数据局部性
- 2023年中国高性能计算机发展现状分析与展望
- 2023年
- 【目的】本文根据2023年11月发布的中国高性能计算机TOP 100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了深入分析。【结果】中国TOP 100的入门性能门槛仍然超过TOP 500。中国TOP 100上的超级计算系统冠军再次更新,其Linpack性能达487 PFlops。联想为系统数量冠军,联想、曙光和浪潮三强争霸的局面逐步演化为联想和浪潮的竞争。算力服务这一应用领域的占比继续增长,充分反映当前算力经济发展趋势。【结论】本文根据二十二届排行榜的性能数据,详细阐述了算力经济发展现状,并对未来中国内地高性能计算机的发展趋势进行了分析预测。
- 张云泉袁良袁国兴李希代
- 关键词:高性能计算机TOP100排行榜
- 面向多核集群的MPI任务并行扩展
- 则应用的任务并行化是高性能计算领域研究的热点.本文面向多核集群架构,对最流行的并行编程模型MPI进行扩展,使其有效支持非规则任务并行.主要研究内容及创新包括:在共享内存上对MPI单边通信进行优化,消除了额外内存拷贝开销;...
- 李士刚张云泉贾海鹏袁良
- 2021年中国高性能计算机发展现状分析被引量:5
- 2021年
- 根据2021年11月发布的中国高性能计算机性能TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域和部署机构等方面进行了讨论分析,同时对未来发展进行了展望。
- 袁国兴张云泉袁良
- 关键词:高性能计算机排行榜测评技术
- 基于OpenCL的Viola-Jones人脸检测算法性能优化研究被引量:12
- 2016年
- Viola-Jones人脸检测算法是最为成功的可实用的人脸检测算法之一.然而,随着该算法所在领域数据处理规模的不断扩大,现有算法的性能已经越来越无法满足日益增长的交互性与实时性要求.使用GPU计算平台提升该算法性能,以满足日益增长的实时性要求已经成为研究热点.然而,该算法在对GPU的实现和优化中,存在线程间负载不均衡的非规则特性,如果仅使用传统的优化方法,则难以在GPU计算平台上达到较高性能.针对此种情况,该文构建了针对此类算法的并行优化框架,通过Uberkernel、粗粒度并行、Persistent Thread、线程与数据的动态映射、全局及本地队列等优化方法的应用,突破了负载不均衡非规则特性导致的性能瓶颈,大幅提高了人脸检测算法在GPU计算平台上的性能.同时,该文通过对不同GPU计算平台关键性能参数的定义、抽取和传递,实现了该算法在不同GPU计算平台间的性能移植.实验结果表明,与OpenCV2.4中经过高度优化的CPU版本在Intel Xeon X5550CPU上的性能相比,优化后的算法在AMD HD7970和NVIDIA GTX680两个不同GPU计算平台上分别达到了11.24-20.27和9.24-17.62倍的加速比,不仅实现了高性能,而且实现了在不同GPU计算平台间的性能移植.
- 贾海鹏张云泉袁良李士刚
- 关键词:OPENCL任务队列
- 高性能计算多层次不连续非线性可扩展现象研究被引量:1
- 2020年
- 高性能计算是计算科学的具体实践,极大地促进了各领域的科学进展,也对国家的经济建设起到了无法替代的基础性作用.从几十年发展的时间尺度和十万至百万核量级并行规模尺度研究大规模并行软件的研制发展历史来看,发现大规模并行应用软件的开发中物理模型、并行算法、并行软件实现以及底层硬件多个层次中存在的可扩展性的两种有趣现象,即不连续性和非线性现象.本文总结分析这一普遍存在现象,系统梳理计算机软硬件发展,特别是高性能计算发展中的可扩展问题,为未来并行计算领域发展提供方法论层面的借鉴和指导.
- 张云泉袁良陈一峯冯晓兵张贺
- 关键词:可扩展性非线性
- AccSMBO:一种基于超参梯度和元学习的SMBO加速算法被引量:1
- 2020年
- 为了利用最佳超参高概率范围和超参梯度,提出了加速的序列模型优化算法(sequential model-based optimization algorithms,SMBO)——AccSMBO算法.AccSMBO使用了具有良好抗噪能力的基于梯度的多核高斯过程回归方法,利用元学习数据集的meta-acquisition函数.AccSMBO自然对应的并行算法则使用了基于元学习数据集的并行算法资源调度方案.基于梯度的多核高斯过程回归可以避免超参梯度噪音对拟合高斯过程的影响,加快构建较好超参效果模型的速度.meta-acquisition函数通过读取元学习数据集,总结最佳超参高概率范围,加快最优超参搜索.在AccSMBO自然对应的并行算法中,并行资源调度方法使更多的并行计算资源用于计算最佳超参高概率范围中的超参,更快探索最佳超参高概率范围.上述3个技术充分利用超参梯度和最佳超参高概率范围加速SMBO算法.在实验中,相比于基于传统的SMBO算法实现的SMAC(sequential model-based algorithm configuration)算法、基于梯度下降的HOAG(hyperparameter optimization with approximate gradient)算法和常用的随机搜索算法,AccSMBO使用最少的资源找到了效果最好的超参.
- 程大宁张汉平夏粉李士刚袁良张云泉
- 关键词:元学习
- 一种基于空间密铺的星型Stencil并行算法
- 2020年
- Stencil计算(模板计算)是科学工程应用中一类常见的嵌套循环算法.分块方法是提高数据局部性和并行性的高效优化技术之一,目前已有大量针对分块方法的探索,但现有工作往往对不同Stencil形状都采用同一处理方法.首先在空间层面引出“自然块”的概念来区分星型Stencil和盒型Stencil的特征,然后提出一个新的针对星型Stencil的2层密铺方案,此方案中自然块和它的后继块可以密铺数据空间区域,这些分块沿着时间维度扩展,能够密铺整个迭代空间.此外,针对星型Stencil设计了一个新颖的“2次更新”优化技术,改善了核内数据重用模式.理论分析表明:此方案相比现有方法有更低的缓存复杂度,实验结果证实了此方案的有效性.
- 曹杭袁良黄珊张云泉徐勇军陆鹏起张广婷
- 2019年中国高性能计算机发展现状分析被引量:7
- 2019年
- 根据2019年11月发布的中国高性能计算机性能TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域、部署机构等方面进行了讨论分析,同时对未来发展进行了展望。
- 袁国兴张云泉袁良
- 关键词:高性能计算机排行榜测评技术