您的位置: 专家智库 > >

国家自然科学基金(60803045)

作品数:8 被引量:10H指数:2
相关作者:罗红兵武林平张晓霞王伟魏勇更多>>
相关机构:北京应用物理与计算数学研究所北京城市学院国防科学技术大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划中国工程物理研究院科学技术发展基金更多>>
相关领域:自动化与计算机技术自然科学总论更多>>

文献类型

  • 8篇中文期刊文章

领域

  • 5篇自动化与计算...
  • 3篇自然科学总论

主题

  • 3篇稳定性
  • 2篇中国国家网格
  • 2篇资源管理
  • 2篇网格
  • 2篇集群系统
  • 2篇计算机
  • 2篇国家网格
  • 2篇高性能
  • 1篇断点
  • 1篇预算机制
  • 1篇容错
  • 1篇软件设计
  • 1篇数值计算研究
  • 1篇轻量
  • 1篇轻量级
  • 1篇主动容错
  • 1篇资源管理模型
  • 1篇自动化
  • 1篇稳定性分析
  • 1篇经济模型

机构

  • 8篇北京应用物理...
  • 1篇北京城市学院
  • 1篇国防科学技术...

作者

  • 7篇罗红兵
  • 6篇武林平
  • 4篇张晓霞
  • 3篇王伟
  • 2篇魏勇
  • 1篇袁国兴
  • 1篇沈岳
  • 1篇曹小林
  • 1篇艾志玮
  • 1篇邢莉
  • 1篇曹立强
  • 1篇莫则尧
  • 1篇刘勇鹏
  • 1篇郝一正
  • 1篇邵京云

传媒

  • 4篇华中科技大学...
  • 3篇计算机工程与...
  • 1篇计算机科学

年份

  • 1篇2012
  • 4篇2011
  • 1篇2010
  • 2篇2009
8 条 记 录,以下是 1-8
排序方式:
高分辨率数值计算研究
2011年
高分辨率计算是高置信度计算中一个极其重要而复杂的研究问题。相对传统的数值计算,高分辨率计算对计算机系统和应用程序(物理建模、参数、计算方法和算法等)提出了很高的要求。并行计算机的发展为大规模科学计算,特别是数值计算分辨率的提高提供了条件。同时,数值计算分辨率的提高也对计算机的计算能力、计算方法、物理建模和参数等提出了新的、更高的要求。本文以一个二维流体力学程序计算平面爆轰问题为例,研究在计算分辨率提高时初始起爆区域、时间步长、网格构造、人为粘性、计算机模拟误差、计算量增长等方面出现的问题,提出了相应的解决办法,提高了计算的精确度。
张晓霞郝一正邵京云袁国兴
关键词:高分辨率
基于GMA的轻量级高性能计算环境监控
2012年
针对高性能计算环境监控的一般要求,分析对比现有的监控体系结构,设计了基于GMA体系结构的监控系统,详细介绍了设计中的几个关键问题,并给出了解决办法,最后实现了一个轻量级且高效的高性能计算环境作业监测系统。
王伟魏勇张晓霞罗红兵
关键词:高性能计算环境监控系统
基于预算的资源管理模型
2011年
针对现有批作业系统中的资源管理方式在资源使用公平性和合理性、作业服务质量(QoS)与实际需求存在较大差距的问题,提出一种基于经济学原理的资源管理模型——BB-RAM模型.模型通过预算机制来实现对计算资源管理和使用的宏观控制,最终达到资源使用最优化和保证作业服务质量的目的.基于实际作业流的仿真结果表明该模型的作业调度的作业延误率、效益值等QoS指标,以及平均响应时间等传统评价指标都优于传统调度策略.
罗红兵王伟张晓霞武林平
关键词:高性能计算机资源管理经济模型预算机制
提高集群系统稳定性的自动化管理方法被引量:1
2011年
为了提升网格节点集群平台的稳定性,提出了一种应用于大规模集群系统的自动管理方法,将该方法部署到本单位曙光5000集群上,取得了较好运行效果.分析了曙光5000使用过程中发生的3类故障模式:计算节点死机,NIS客户端系统失效和违规作业;根据每类故障的发展特征,实现了处理这些故障模式的系统故障自动管理方法;实际运行效果表明该方法能够提高作业成功率,降低计算节点失效率.
魏勇邢莉武林平罗红兵
关键词:中国国家网格集群系统稳定性主动容错
集群系统运行状态监控软件设计被引量:2
2011年
结合现有监控方法,设计并实现了一种针对集群系统关键部件的多层次、集中式监控软件.该软件的监控状态参数丰富,涵盖了部件的物理状态、节点的负载状态、节点的事件信息状态和数字电路逻辑状态这4大类运行状态;其状态数据使用数据库集中存储,便于历史数据的检索与分析;状态数据具有统一时钟,能够再现集群系统历史某时刻的运行时场景.在实际系统上的运行结果表明:基于该软件实现的故障在线自动处理机制能够提高系统运行稳定性及作业的成功率.
武林平张晓霞王伟罗红兵
关键词:集群系统稳定性资源管理
大规模计算系统的主动故障管理方法被引量:5
2010年
为了提供稳定的计算资源以提高网格用户作业的完成率,针对高性能计算系统的稳定性问题,提出了故障的主动管理方法,该方法的实施可分为三步:首先,根据系统运行历史数据,提炼出系统主要故障模式集合;然后从软件、硬件角度实现系统状态的实时监控,根据监控数据完成对系统故障的诊断;最后,根据诊断结果实施故障部件的隔离,避免故障的传播,从而减少底层故障对上层应用的影响.该方法在某实际生产性系统上取得较好效果:系统全局故障时间间隔由原来的8 d提高到28 d;故障修复时间由原来的平均10 h缩短到16 min;节点故障引起的失败作业比例由4.6%降低为1.3%.实践证明主动故障管理方法能够降低系统故障开销、提高并行作业的完成率,部署到CNGrid节点的高性能计算系统上,可进一步提高CNGrid的服务质量.
武林平罗红兵艾志玮沈岳
关键词:中国国家网格故障隔离
大规模计算系统故障特征及容错机制分析被引量:3
2009年
本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系统容错机制的挑战及可能的解决方案。
武林平罗红兵刘勇鹏
关键词:容错
超级计算机作业运行稳定性分析
2009年
通过作业日志分析和考核实验方式,对超级计算机并行作业运行稳定性进行了分析。日志分析结果表明,并行作业运行的稳定性会随作业执行时间的增长、作业使用CPU数的增多而下降;当并行作业的计算量达到105CPU小时量级,超过20%的作业会因系统故障而中止。考核实验结果表明,使用数千CPU的并行作业很容易受到多种因素的干扰而中止,很难持续运行超过24小时。最后给出了有关超级计算机稳定性改进、系统管理使用和并行程序研制的几点建议。
罗红兵曹小林曹立强武林平莫则尧
关键词:超级计算机稳定性
共1页<1>
聚类工具0