何王全
- 作品数:84 被引量:35H指数:4
- 供职机构:江南计算技术研究所更多>>
- 发文基金:国家高技术研究发展计划国家重点基础研究发展计划国家重点实验室开放基金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 面向众核多层次存储系统的数据高效传输支持方法
- 本发明公开了一种面向众核多层次存储系统的数据高效传输支持方法,包括典型访存通信模式性能库和运行时最优模式选择模块,所述典型访存通信模式性能库是通过以下步骤构建形成的,总结科学计算程序中的典型通信访存模式;对每种典型通信访...
- 方燕飞李雁冰董恩铭杨小川何王全尉红梅
- 文献传递
- 通信域的集中式管理方法
- 本发明公开了一种通信域的集中式管理方法,创建通信域数据结构;通信域的根进程向全局主进程发起申请,全局主进程收到申请后分配管理索引;全局主进程收从资源列表中读取资源信息,通过通信优化策略从资源列表中选择生成可用资源信息,并...
- 于康方燕飞董恩铭李雁冰何王全漆锋滨
- 文献传递
- 用于超大Infiniband网络的负载均衡多播路由被引量:1
- 2022年
- 高性能计算中,硬件支持的多播操作对应用程序性能具有至关重要的影响。Infiniband网络中现有的两类多播路由算法中,MINIHOP-MC未考虑路由均衡性问题,导致链路edge forwarding index(EFI)指数很大,严重影响多播消息性能;SSSP-MC虽然部分考虑了路由均衡性问题,但其运行时间很长,不能满足超大规模互连网络的需求。提出一种负载均衡的快速多播路由算法FULB-MC,可用于存在大量多播组的超大规模互连网络环境。该算法采用自底向上的多播树构建方法,并综合利用两种负载均衡策略根据局部负载信息进行多播路由选择。还提出了新的加入/离开多播组机制,避免频繁计算多播路由问题。在各种拓扑结构、各种通信模式下对FULB-MC进行了大量测试。结果表明,在运行时间方面,FULB-MC显著低于SSSP-MC;在链路EFI指数方面,FULB-MC明显优于MINIHOP-MC,而与SSSP-MC基本相当。
- 陈淑平周慧霖何王全漆锋滨
- 关键词:多播路由负载均衡INFINIBAND
- 一种基于哈希算法的库函数安全增强方法
- 本发明提供了一种基于哈希算法的库函数安全增强方法,包括:对同一函数的多次调用,将已经回溯的栈信息用链表保存起来,此后再次调用该函数时,以函数返回地址作为关键字检索链表以查找所述函数的栈信息,如果在链表中查找到所述函数的栈...
- 姜军漆锋滨谢汶兵何王全王雅慧石培森
- 文献传递
- OpenCL的动态执行模式在静态编译支持下的实现被引量:1
- 2014年
- OpenCL的动态执行模式要求底层平台支持device文件的动态生成、编译和加载运行。对于不具备这些特性的平台,必须从软件层面考虑支持方法。通过采用函数更名技术解决同名函数正确识别问题,基于动态执行流的predo策略可以在静态编译环境下实现OpenCL的动态执行模式。
- 文延华何王全尉红梅
- 关键词:执行流
- 面向国产异构众核系统的Parallel C语言设计与实现被引量:10
- 2017年
- 异构众核架构具有超高的性能功耗比,已成为超级计算机体系结构的重要发展方向.但众核系统更为复杂的并行层次和存储层次,给编程和优化带来了极大的挑战.因此,研究面向众核系统的并行编程技术,对于降低国产众核系统并行应用的编程难度、提升并行程序的性能都具有重要的意义.提出统一架构的多模式并行编程模型,包括异构融合的加速运算模型和按同构方式编程的自主运算模型,根据编程模型设计了Parallel C语言,能够有效地描述国产众核系统的异构并行性.与其他众核系统上MPI+X的使用模式相比,编程和系统优化都具有全局视角,在多级局部性描述、单边消息、兼容已有多核应用等方面具有特色;基于Open64构建了Parallel C编译系统,全面支持加速运算模型和自主运算模型,提出并实现了数据布局与自动DMA、编译指导的线程代理和拓扑位置感知的集合通信等优化.Micro Benchmark和实际应用在神威太湖之光计算机系统上的测试数据结果表明:Parallel C语言和编译系统具有良好的性能和可扩展性,能够有效支撑大型应用.
- 何王全刘勇方燕飞魏迪漆锋滨
- 关键词:编程模型并行语言PARALLEL编译器
- 一种无横向一致性的众核精简Cache协议实现方法
- 本发明公开一种无横向一致性的众核精简Cache协议实现方法,包括以下步骤:S1、对Cache行内数据更新情况进行分析,标记出被更新的数据;S2、如果Cache行内所有数据都没有被更新,或者Cache行内所有数据都被更新,...
- 何王全郑方王飞过锋吴伟陈芳园朱琪钱宏管茂林
- 大规模并行程序用实时监测与分析方法
- 本发明公开了一种大规模并行程序用实时监测与分析方法,S1:选出m个能够反映程序运行状态的性能指标;S2:采集选出的运行状态指标数据;S3:将S2中同一个进程相邻n次采集得到的指标数据组成一个纵向向量,计算不同进程间同一指...
- 冯赟龙刘勇何王全陈华蓉宋佳伟王敬宇彭达佳孙川罗威张威梁艳
- 文献传递
- 一种基于深度学习的性能分析框架设计与实现被引量:5
- 2018年
- 高性能计算系统的体系结构日益复杂和现有性能分析工具的智能程度不足,导致高性能计算应用的程序性能分析和优化的成本代价日益高昂。所幸,人工智能领域目前取得了重要进展,其中深度学习技术发挥了重要作用,它给性能分析工具的智能化带来了契机。提出一种基于深度学习的程序性能智能分析框架,其核心思想是将程序的性能分析问题抽象成可用机器学习技术描述的分类问题,使用处理器支持的PMU采集分类所需的性能数据并标准化,使用簇评估技术结合簇的实际含义确定性能问题类别,通过稀疏编码自动学习性能数据特征并构建性能问题分类模型。在神威太湖之光超级计算机上实现了程序性能分析框架原型。实验结果表明,该性能分析方法能够直观地指导程序员快速把握当前应用最为突出的性能瓶颈问题,提高应用优化的效率,降低用户调优代码的成本。
- 冯赟龙刘勇何王全
- 关键词:性能分析
- 一种基于物理位置感知的集合通信方法
- 本发明提供了一种基于物理位置感知的集合通信方法,包括:感知目的进程的位置;在目的进程和位于同一物理芯片内时,通过查询确定本地运算核心是否空闲;在本地运算核心空闲的情况下,通过本地运算核心发起存储器直接访问操作,将通信数据...
- 何王全魏迪尹万旺刘勇
- 文献传递