公共文化服务平台

并行作业启动及其可扩展性分析被引量：1: 2013年; 随着高性能计算机系统与并行应用规模的不断增加,大规模并行作业的启动时间不能再被忽略不计.已有的研究给出了在Tianhe-1A系统上加载MPI作业的性能结果.通过分析作业启动在控制消息传递、文件访问、MPI环境初始化等各阶段的时间开销,发现对于大规模MPI作业而言,环境初始化时间是作业启动的主要开销.基于此发现进行了一些优化,减少MPI环境初始化时交换的数据量,并避免不必要的数据传输开销.显著地提高了并行作业启动的性能.进而提出了一种层次式的可扩展进程管理结构,以进一步增强作业启动的可扩展性.与其他主流MPI实现的进程管理机制的作业启动时间进行了比较.; 曹宏嘉卢宇彤谢旻周恩强; 关键词：进程管理 MPI 可扩展性

A Multi-scale Parallel Numerical Solver for Modeling of Two-phase Viscoelastic Fluids Based on the OpenFOAM: With the rapid development of high performance computing technology,the simulation of viscoelastic fluids has ...; Xiao-Wei GuoYu CaoMiao WangQian Wang; 文献传递

对象存储并行文件系统小文件性能优化研究被引量：2: 2013年; 对象存储并行文件系统在高性能计算领域被广泛采用,虽然大文件访问性能优异,但其小文件访问存在局限性。通过分析典型对象存储并行文件系统下的小文件的访问开销,采用服务端小文件专用缓存和基于对象命名关联性预取的方法提高小文件的缓存命中率,降低对象存储架构下小文件的读取延迟。基于Lustre并行文件系统实现了该方法。实际系统测试表明,该方法可显著提高小文件访问性能,其中小文件打包性能提升最大可达88%。; 周恩强董勇张伟卢宇彤; 关键词：并行文件系统缓存

MDSLB:A new static load balancing method for parallel molecular dynamics simulations被引量：1: 2014年; Large-scale parallelization of molecular dynamics simulations is facing challenges which seriously affect the simulation efficiency,among which the load imbalance problem is the most critical.In this paper,we propose,a new molecular dynamics static load balancing method(MDSLB).By analyzing the characteristics of the short-range force of molecular dynamics programs running in parallel,we divide the short-range force into three kinds of force models,and then package the computations of each force model into many tiny computational units called"cell loads",which provide the basic data structures for our load balancing method.In MDSLB,the spatial region is separated into sub-regions called"local domains",and the cell loads of each local domain are allocated to every processor in turn.Compared with the dynamic load balancing method,MDSLB can guarantee load balance by executing the algorithm only once at program startup without migrating the loads dynamically.We implement MDSLB in OpenFOAM software and test it on TianHe-1A supercomputer with 16 to 512 processors.Experimental results show that MDSLB can save 34%–64%time for the load imbalanced cases.; 武云龙徐新海杨学军邹顺任小广; 关键词：分子动力学模拟平衡方法超级计算机

FTRP:基于进程复制和预取的高性能计算容错框架（英文）: 2018年; 随着超级计算机规模迅速增大,可靠性成为制约系统可用性的主要问题。现有容错机制,包括检查点技术和进程冗余等,不能有效解决该问题。为此,提出一种基于进程复制和预取的高性能计算容错框架—FTRP(fault tolerance framework using process replication and prefetching),该框架兼具主动和被动容错机制的优点,引入创新的开销模型和主动容错机制,能够有效改善应用运行效率。提出"工作最多"(work-most,WM)的创新开销模型,基于故障预测结果和应用状态,从容错机制集中在线自适应给出运行容错决策。与程序运行过程中的局部性相似,我们第一次观察到超级计算机故障局部性现象。基于故障局部性,提出一种新的进程复制和进程预取相结合的容错机制,无论故障能否被预测到,都能够有效避免故障引起的损失。通过基于实际故障路径和普通故障预测准确率的模拟实验,并采用FTRP容错框架的应用,可以获得比现有容错机制10%的改进,且在P级甚至更大规模系统上有效。; Wei HUGuang-ming LIUYan-huang JIANG; 关键词：PROACTIVE TOLERANCE LOCALITY PROCESS REPLICATION PROCESS PREFETCHING

多准则赋权排序与C-SVM相结合的特征选择算法被引量：6: 2018年; 数据挖掘中所获取的数据维数多,常常导致数据存储所需容量大,知识挖掘所需时间长,预测正确率不高等问题,特征选择是解决上述问题的重要方法之一。针对现有特征选择算法最佳特征个数难以确定及分类准确率有待进一步提高等问题,提出一种同时考虑相关性和冗余度的多准则赋权排序的算法(m CRC),m CRC结合两种准则同时对特征进行排序,并利用C-SVM对按重要性降序排好的特征采用顺序前向浮动搜索得出最佳特征子集。实验结果表明,m CRC算法与单独基于互信息或类别可分性赋权排序的特征选择方法相比能在更短的时间内获得分类性能更好的最佳特征子集,为快速并高效地对数据集进行挖掘提供了有力保障。; 孙勤孙勤蒋艳凰胡维张毅

面向异构体系结构的GA模型拓展被引量：1: 2017年; 科学与工程应用对计算性能要求的不断增加使得异构计算得到了迅速发展,然而CPU与加速单元之间没有共享内存的特点增加了异构编程难度,编程人员必须显式地指定数据在不同设备之间的传递情况.全局数组(global arrays,GA)模型基于聚合远程内存拷贝接口(ARMCI)为分布式存储系统提供异步单边通信、共享内存的编程环境,但ARMCI接口拓展的复杂性使得GA不能根据特定计算平台的特点迅速在该平台上实现.CoGA模型是对GA模型的异构拓展,旨在为CPU+英特尔至强融核(MIC)的异构系统提供全局数组结构,隐藏数据传输细节从而简化异构编程难度.CoGA基于MIC上的对称传输接口(SCIF)实现对CPU和MIC的内存管理,并结合SCIF远程内存访问特点优化CPU与MIC间的数据传输性能.最后,通过数据传输带宽、通信延迟和稀疏矩阵乘问题的测试,证明了CoGA简化编程并优化数据传输性能的有效性和实用性.; 程鹏卢宇彤高涛王晨旭; 关键词：异构计算编程模型

Storage wall for exascale supercomputing被引量：2: 2016年; The mismatch between compute performance and I/O performance has long been a stumbling block as supercomputers evolve from petaflops to exaflops. Currently, many parallel applications are I/O intensive,and their overall running times are typically limited by I/O performance. To quantify the I/O performance bottleneck and highlight the significance of achieving scalable performance in peta/exascale supercomputing, in this paper, we introduce for the first time a formal definition of the ‘storage wall' from the perspective of parallel application scalability. We quantify the effects of the storage bottleneck by providing a storage-bounded speedup,defining the storage wall quantitatively, presenting existence theorems for the storage wall, and classifying the system architectures depending on I/O performance variation. We analyze and extrapolate the existence of the storage wall by experiments on Tianhe-1A and case studies on Jaguar. These results provide insights on how to alleviate the storage wall bottleneck in system design and achieve hardware/software optimizations in peta/exascale supercomputing.; Wei HUGuang-ming LIUQiong LIYan-huang JIANGGui-lin CAI

基于天河2高速互连网络实现混合层次文件系统H^2FS高速通信被引量：7: 2017年; 高效通信性能是影响并行文件系统性能与效率的重要因素.该文基于TH-2系统的高性能互连网络——天河2高速互连网络(TH-Express 2),设计并实现了混合层次文件系统H^2FS中的高速通信模块FSE.FSE采用了TH-Express 2的短报文通信MP和远程内存访问RDMA相结合的方式,实现客户端与ION的通信.FSE采用基于动态链表的内存注册池减少通信延迟,提高通信效率.基于可变信用的流量控制,FSE有效降低系统出现拥塞的可能性,提高系统的可扩展性和稳定性.为了充分利用多核处理器的并发处理能力以及多RDMA引擎的传输能力,FSE对报文传输和数据处理功能采用了多维多线程方式,提高数据访问带宽.FSE的自适应端点管理针对通信端点容错能力设计,提高了系统弹性,有助于增强系统稳定性.FSE实现优化了数据传输效率,实现了低延迟、高带宽、高可扩展数据访问.在两个不同实际系统上的测试结果表明,FSE可以充分发掘TH-Express 2的特性,点点数据访问带宽可达8.6Gbps,使得H^2FS具有较高的数据访问带宽和元数据性能,并具有良好的可扩展性.同基于TCP的通信模块实现相比,FSE的读写延迟可低至55%和20%,最大单ION写性能是其3.3倍;同Lustre文件系统相比,FSE更好地利用了高速网的特性来获取较高性能,写延迟可低至其28.6%.; 董勇周恩强卢宇彤张伟; 关键词：FSE

面向分层混合存储架构的协同式突发缓冲技术被引量：3: 2015年; 科学计算产生和分析的数据规模日益增长,高性能计算机的存储系统在体系架构和软件管理方法上面临重大挑战。针对天河-2系统的新型分层混合存储架构,提出一种由应用程序耦合的协同式突发缓冲技术来有效利用其存储资源优势。该方法采用运行时动态耦合的方法,将临近计算任务的分布式高速存储资源聚合成为一个的巨大的协同式突发缓冲区,通过采用文件命名空间投影的映射方法组织全局数据视图,利用位置亲和和感知数据意图的方法来挖掘空间局部性和时间局部性,并利用应用并发度感知的策略优化数据移动效率。天河-2系统的测试结果表明,该方法能够有效优化多种典型应用场景,可获得高可扩展的突发并行输出带宽和稳定的持续并行输出带宽,可显著提升数据分析场景的输入/输出性能,适合应用于大规模超级计算机的存储系统。; 周恩强张伟董勇卢宇彤; 关键词：超级计算机存储架构并行文件系统

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(61120106005)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(61120106005)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈