公共文化服务平台

孙相征: 作品数：14 被引量：37H指数：3; 供职机构：中国科学院软件研究所更多>>; 发文基金：国家高技术研究发展计划国家自然科学基金中国科学院知识创新工程重要方向项目更多>>; 相关领域：自动化与计算机技术天文地球理学更多>>

合作作者

SpMV的自动性能优化实现技术及其应用研究被引量：16: 2009年; 在科学计算中,稀疏矩阵向量乘(SpMV)是一个十分重要且经常被大量调用的计算内核.由于SpMV一般实现算法的浮点计算和存储访问次数比率非常低,且其存储访问模式极为不规则,其实际运行性能往往很低.通过采用寄存器分块算法和启发式分块大小选择算法,将稀疏矩阵分成小的稠密分块,重用保存在寄存器中向量x元素,可以提高该计算内核的性能.剖析和总结了OSKI软件包所采用的若干关键优化技术,并进行了实际应用性能测试.测试表明,在实际应用这些优化技术的过程中,应用程序对SpMV的调用次数要达到上百次的量级,才能抵消由于应用这些性能优化技术所带来的额外时间开销,取得性能加速效果.在Pentium4和AMD Athlon平台上,测试了10个矩阵,其平均加速比分别达到了1.69和1.48.; 袁娥张云泉刘芳芳孙相征; 关键词：稀疏矩阵向量乘启发式算法

数值软件自适应性能优化搜索过程评价技术研究被引量：2: 2010年; 随着计算机硬件的快速变化,如何充分利用计算机资源,使软件性能尽可能逼近处理器峰值是人们关心的问题.针对特定硬件平台手工优化程序,或者依赖编译器优化技术,存在人工介入,难与硬件更新同步等问题.而采用自适应性能优化技术实现的高性能数学软件包(SANS)如FFTW,ATLAS,PHiPAC,OSKI等,可有效解决前两种方法存在的问题,降低开发成本,提高软件可移植性.针对自适应性能优化技术中,优化参数搜索过程十分耗时的问题,提出对优化搜索过程的评价指标Pt,并给出用此指标控制优化搜索过程的方法.实验表明运用该指标可以在较短的时间内得到一个合理的性能值.; 孙相征张云泉王宣强王磊; 关键词：自适应 ATLAS

一种改进的OpenMP指导调度策略研究被引量：15: 2010年; 在科学计算中,循环结构是最重要的并行对象之一.考虑到负载平衡、调度开销等多方面因素,OpenMP标准提供静态调度、动态调度、指导调度和运行时调度等不同策略.针对指导调度策略不适合递减型循环结构的问题,提出一种改进的new_guided指导调度策略,并在OMPi编译器上加以实现.New_guided调度策略的主要思想是对前半部分的循环采用静态调度,后半部分的循环采用指导调度.针对不同循环结构,在多核处理器上对不同调度策略进行评测.结果表明,在一般情况下,OpenMP默认的静态策略的调度性能最差;对于规则的循环结构和递增的循环结构,动态调度、指导调度和new_guided策略的性能差别不大;对于递减型的循环结构,动态调度和new_guided策略的性能相当,要优于指导调度策略;对于某些极不规则的随机循环结构,动态调度明显优于其他策略,new_guided策略的性能介于动态调度和指导调度之间.; 刘胜飞张云泉孙相征; 关键词：OPENMP 负载平衡静态调度动态调度

针对稀疏矩阵的数据存储方法及基于该方法的SpMV实现方法: 本发明公开一种针对稀疏矩阵的数据存储方法及基于该方法的SpMV实现方法，存储方法包括A、以给定列单元大小的行数扫描稀疏矩阵，当扫描到非零元时，将该非零元所在列的非零元值存储到非零元数组val中；B、计算列值差，判断非零元...; 孙相征张云泉王婷刘芳芳袁良; 文献传递

稀疏矩阵的对角线数据存储方法及基于该方法的SpMV实现方法: 本发明公开一种稀疏矩阵的对角线数据存储方法及基于该方法的SpMV实现方法，存储方法为1)按行扫描稀疏矩阵A，以对角线编号表示非零元对角线的位置；2)以非零元对角线与矩阵A侧边的交点作水平线将矩阵A切分为多个子稀疏矩阵；3...; 袁良张云泉孙相征王婷刘芳芳

行星流体动力学数值模拟程序的千核性能优化: 2010年; 基于百万亿次超级计算机深腾7000,对行星流体动力学数值模拟程序的性能优化进行了研究。首先,进行了从原基于Aztec库到PETSc库改进后的程序的8-2048核强可扩展性测试。测试结果表明,在每节点8核或4核时,PETSc程序运行时间平均是Aztec程序29.31%或24.97%。其次,针对该程序压力方程的系数矩阵特点,设计实现了CVRSD存储格式的SpMV优化,下一步将移植到基于PETSc库的行星流体动力学程序中。; 张云泉王婷孙相征杨超李力刚; 关键词：可扩展性

行星流体动力学大规模并行模拟及分析: 主要介绍了行星流体动力学大规模并行模拟中病态压力方程的预条件子和迭代算法的选取,并根据强弱可扩展性的概念,对弱可扩展性的实验结果进行了分析。具体分析了在维持每核平均的浮点操作次数基本不变的情况下,倍增处理器规模时,程...; 王婷张云泉孙相征杨超; 关键词：预条件迭代

RAM(h)模型下SpMV存储访问复杂度的分析: 2009年; 稀疏矩阵向量乘(SpMV)采取压缩行存储格式的算法性能非常差,而寄存器分块算法可以使得数据尽量在靠近处理器的存储层次中访问而提高性能。利用RAM(h)模型进行分析和比较不同算法形式的存储访问复杂度,可以比较两种算法的优劣。通过RAM(h)分析SpMV两种实现形式的存储访问复杂度,同时在奔腾四平台上,测试了7个稀疏矩阵的SpMV性能,并统计了这两种算法中L1,L2,和TLB的缺失率,实验结果与模型分析的数据一致。; 袁娥张云泉孙相征; 关键词：稀疏矩阵向量乘

对角线稀疏矩阵的SpMV自适应性能优化被引量：4: 2013年; 稀疏矩阵向量乘(SpMV)是科学计算中常用的内核之一,其运行速率跟非零元分布相关.针对对角线稀疏矩阵,提出了压缩行片段对角(compressed row segment diagonal,CRSD)存储格式.它利用"对角线格式"有效描述矩阵的对角线分布,区别于以往通用的计算方法,CRSD通过对给定应用的对角线稀疏矩阵采样再进行特定的优化.并且在软件安装阶段,通过自适应的方法选取适合具体运行平台的最优SpMV实现.在CPU端进行多线程并行化实现时,自适应调优过程中收集的信息还被用于线程间任务划分,以实现负载平衡.同时完成CRSD存储格式在GPU端的实现,并根据GPU端计算与访存的特点进行优化.实验结果表明:在Intel和AMD的多核平台使用相同线程数的情况下,与DIA相比,使用CRSD的加速比可以达到2.37X(平均1.7X);与CSR相比,可以达到4.6X(平均2.1X).; 孙相征张云泉王婷李焱袁良; 关键词：GPU

天体大规模数值模拟软件性能优化: 2010年; 在百万亿次超级计算机深腾7000上进行了基于Aztec库和PETSc库的天体大规模数值模拟程序对比测试,并对性能测试结果进行了分析.实验结果表明,当8核/节点时,PETSc程序运行时间是Aztec程序的23.34%～41.10%,平均为29.31%;当4核/节点时,PETSc程序运行时间是Aztec程序的19.72%～31.34%,平均为24.97%.在测试过程中,还观察到同样的问题规模和处理器核数,每节点采用4个处理器核比采用8个处理器核时的运行时间,在基于Aztec库的情况下平均下降29%,在基于PETSc软件包的情况下平均下降36%.此外,还给出了对PETSc程序进一步对角线存储优化的结果.实验结果体现了深腾7000提供的有效支持,对软件下一步的优化研究有指导意义.; 孙相征张云泉王婷杨超李力刚; 关键词：可扩展性

孙相征

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

孙相征

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈