基于MPI的并行容错技术研究与实现
【摘要】:随着HPC系统的迅猛发展,其系统的可靠性问题越来越引起人们的关注,容错技术作为提高系统可靠性的一种重要的技术手段,对其开展研究具有十分重要的意义。MPI作为HPC领域使用最为广泛的并行编程环境,在MPI系统中实现对容错的支持是容错技术研究的一个重要方向。
本文对现有的容错技术进行了深入的研究、分析和对比后,选择检查点技术作为本课题系统的容错手段。设计实现了独立于MPI标准实现库、具有可移植性和可扩展性的MPI容错系统——VFTS(Variable-based Fault Tolerant MPI System)。在设计和实现VFTS系统中,主要工作如下:
建立了检查点容错的程序性能分析模型以指导用户为程序添加容错功能。在系统故障服从泊松分布时,给出了程序如何添加容错功能以获取程序最小时间开销。此外根据系统特点,总结了容错程序性能优化方法,提出了程序添加容错功能时获取较小时间、空间和通信开销所需要遵循的约束原则。
提出了通信器动态重构方法,针对现有MPI标准中的静态进程模型对于容错的限制,通信器动态重构可以使MPI程序能够实现对失效进程的隔离、排除、新进程加入,通信器动态恢复等功能,使得程序在有进程发生失效后能够动态重构其通信器和通信空间。
设计了用于程序用户数据保存和恢复的伙伴协议。伙伴协议通过两个或多个进程之间互相保存对方进程用户数据来完成容错功能,设计简单且容错能力可根据伙伴协议的变化而变化,方便用户根据程序容错需求通过调整伙伴协议来调整程序容错能力。
设计了保证系统程序状态正确性的全局一致性协议,此协议设计与实现简单、开销较小。在伙伴协议和检查点机制提供的数据支持下,用于保证程序失效前后程序系统数据和用户数据保存和恢复的一致性。
设计和实现了VFTS系统,并采用NPB程序对程序添加容错功能后对程序时间性能、空间性能、通信负载、容错能力和系统I/O带来的影响进行了详细测试和分析。
|
|
|
|
1 |
李卫东;;容错技术在梅钢的应用[A];全国冶金自动化信息网2012年年会论文集[C];2012年 |
2 |
蒙建波;吴银成;杨俊永;;容错技术与仪表的发展[A];第三次全国会员代表大会暨学术会议论文集[C];2002年 |
3 |
昌月楼;杨利;阳国贵;;SN-PDB中一种先进的结点容错法[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年 |
4 |
于洪涛;黄文轩;王和;;一种双机容错方案及其应用[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年 |
5 |
杨艳妮;彭道勇;张仕念;殷维刚;张国彬;;军用软件可靠性问题研究[A];2009第十三届全国可靠性物理学术讨论会论文集[C];2009年 |
6 |
杜云飞;王攀峰;富弘毅;周海芳;杨学军;;矩阵LU分解的容错并行算法设计与实现[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年 |
7 |
王东盛;;容错技术在卫星控制系统中的应用[A];第十届全国容错计算学术会议论文集[C];2003年 |
8 |
张鲁飞;程华;;高性能计算机容错技术综述[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(下册)[C];2010年 |
9 |
黄敬尧;;分布式系统中检查点的设计及实现[A];湖北省机械工程学会青年分会2006年年会暨第2届机械学院院长(系主任)会议论文集(下)[C];2006年 |
10 |
庞海洋;李新明;;软件容错[A];第十届全国容错计算学术会议论文集[C];2003年 |
|