收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于MPI的并行容错技术研究与实现

牛海波  
【摘要】:随着HPC系统的迅猛发展,其系统的可靠性问题越来越引起人们的关注,容错技术作为提高系统可靠性的一种重要的技术手段,对其开展研究具有十分重要的意义。MPI作为HPC领域使用最为广泛的并行编程环境,在MPI系统中实现对容错的支持是容错技术研究的一个重要方向。 本文对现有的容错技术进行了深入的研究、分析和对比后,选择检查点技术作为本课题系统的容错手段。设计实现了独立于MPI标准实现库、具有可移植性和可扩展性的MPI容错系统——VFTS(Variable-based Fault Tolerant MPI System)。在设计和实现VFTS系统中,主要工作如下: 建立了检查点容错的程序性能分析模型以指导用户为程序添加容错功能。在系统故障服从泊松分布时,给出了程序如何添加容错功能以获取程序最小时间开销。此外根据系统特点,总结了容错程序性能优化方法,提出了程序添加容错功能时获取较小时间、空间和通信开销所需要遵循的约束原则。 提出了通信器动态重构方法,针对现有MPI标准中的静态进程模型对于容错的限制,通信器动态重构可以使MPI程序能够实现对失效进程的隔离、排除、新进程加入,通信器动态恢复等功能,使得程序在有进程发生失效后能够动态重构其通信器和通信空间。 设计了用于程序用户数据保存和恢复的伙伴协议。伙伴协议通过两个或多个进程之间互相保存对方进程用户数据来完成容错功能,设计简单且容错能力可根据伙伴协议的变化而变化,方便用户根据程序容错需求通过调整伙伴协议来调整程序容错能力。 设计了保证系统程序状态正确性的全局一致性协议,此协议设计与实现简单、开销较小。在伙伴协议和检查点机制提供的数据支持下,用于保证程序失效前后程序系统数据和用户数据保存和恢复的一致性。 设计和实现了VFTS系统,并采用NPB程序对程序添加容错功能后对程序时间性能、空间性能、通信负载、容错能力和系统I/O带来的影响进行了详细测试和分析。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李书涛,李小平,张岩,钟宏;民航订票系统[J];北京理工大学学报;1995年05期
2 ;未雨绸缪话容错技术[J];计算机与网络;2004年06期
3 徐和平;何强;;联锁控制系统中的容错技术[J];川化;2005年02期
4 张晓东;白雪峰;;软件可靠性论述[J];内蒙古科技与经济;2007年11期
5 陈廷槐 ,陈以农 ,刘志模;容错技术及其在高可靠系统设计中的应用[J];火力与指挥控制;1988年01期
6 丁岚;计算机软件抗干扰技术[J];中国仪器仪表;1996年06期
7 孔令富;黄真;蔡鹤皋;;容错技术在并联机器人控制系统中的应用[J];电气自动化;1996年06期
8 方明煌;提高STD工控在提升机监控系统可靠性的措施[J];工业控制计算机;2000年06期
9 李来进,钱建勋;容错技术及其在NT网络服务器中的应用[J];工矿自动化;2002年03期
10 冯磊;;单机容错为CIO解心疾[J];信息系统工程;2006年08期
11 周荣;;容错技术研究[J];商情(教育经济研究);2008年05期
12 辛晓立;王锐;岳国峰;;容错技术在黑龙江省水利信息网中的应用[J];黑龙江科技信息;2009年19期
13 童勤义 ,王国裕;整片集成与容错技术[J];电子器件;1987年01期
14 王鼎,朱玉娟,陈禾;一种高可靠的半导体容错存储器的设计[J];系统工程与电子技术;1998年03期
15 李治辉,武波;智能外设开发中所使用的容错技术[J];电子科技;2001年21期
16 杨成,李度高;多微机实时控制系统的容错技术[J];计算机与网络;2002年09期
17 王妍,徐叶茂;嵌入式计算机系统中的故障注入技术[J];舰船电子工程;2005年05期
18 ;容错技术、误差校验、故障诊断、计算机安全[J];电子科技文摘;2006年01期
19 张溪竹;;浅谈磁盘阵列技术[J];天津科技;2008年02期
20 郑杰辉;;探讨容错并行虚拟机原型系统的实现[J];科技资讯;2009年25期
中国重要会议论文全文数据库 前10条
1 李卫东;;容错技术在梅钢的应用[A];全国冶金自动化信息网2012年年会论文集[C];2012年
2 蒙建波;吴银成;杨俊永;;容错技术与仪表的发展[A];第三次全国会员代表大会暨学术会议论文集[C];2002年
3 昌月楼;杨利;阳国贵;;SN-PDB中一种先进的结点容错法[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年
4 于洪涛;黄文轩;王和;;一种双机容错方案及其应用[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
5 杨艳妮;彭道勇;张仕念;殷维刚;张国彬;;军用软件可靠性问题研究[A];2009第十三届全国可靠性物理学术讨论会论文集[C];2009年
6 杜云飞;王攀峰;富弘毅;周海芳;杨学军;;矩阵LU分解的容错并行算法设计与实现[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
7 王东盛;;容错技术在卫星控制系统中的应用[A];第十届全国容错计算学术会议论文集[C];2003年
8 张鲁飞;程华;;高性能计算机容错技术综述[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(下册)[C];2010年
9 黄敬尧;;分布式系统中检查点的设计及实现[A];湖北省机械工程学会青年分会2006年年会暨第2届机械学院院长(系主任)会议论文集(下)[C];2006年
10 庞海洋;李新明;;软件容错[A];第十届全国容错计算学术会议论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 李旭;基于非易失内存的高性能计算容错技术研究[D];国防科学技术大学;2013年
2 钱华明;故障诊断与容错技术及其在组合导航系统中的应用研究[D];哈尔滨工程大学;2004年
3 杨金民;低开销的回卷恢复容错技术研究[D];湖南大学;2005年
4 张佳琳;分布式导航系统容错机制关键技术研究[D];哈尔滨工程大学;2013年
5 陈阿莲;新型多电平逆变器组合拓扑结构和多电平逆变器的容错技术[D];浙江大学;2005年
6 柳林;面向3G的H.264/AVC压缩视频通信技术研究[D];浙江大学;2006年
7 黄海林;高可靠处理器体系结构研究[D];中国科学院研究生院(计算技术研究所);2006年
8 卢鸿谦;SINS/GPS组合导航性能增强技术研究[D];哈尔滨工业大学;2006年
9 周卫东;组合导航系统应用软件可靠性研究[D];哈尔滨工程大学;2006年
10 贾佳;异构并行计算机容错技术研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 黄德君;机会网络中容错传输机制的研究[D];湖南大学;2010年
2 杨琳峰;容错加固计算机的设计与实现[D];天津大学;2003年
3 肖毅;网络考试系统安全及容错处理的研究与实现[D];中南大学;2009年
4 齐志华;车站信号电子执表系统研究[D];北京交通大学;2006年
5 杨林芳;无人机容错飞行控制系统研究[D];南京航空航天大学;2007年
6 周晴岚;基于多Agent的实时数据库故障排除技术[D];华中科技大学;2007年
7 焦亮;基于Linux内核的进程检查点技术研究[D];哈尔滨工程大学;2009年
8 严传龙;组合导航系统可靠性分析与研究[D];哈尔滨工程大学;2008年
9 张华健;基于集群系统状态的检查点技术的研究[D];哈尔滨工程大学;2008年
10 蔡常群;基于DSP的变压器保护监控系统的研究与设计[D];湖南大学;2004年
中国重要报纸全文数据库 前10条
1 艾先;容错技术扫描[N];中国贸易报;2004年
2 ;容错技术的发展与应用展望[N];计算机世界;2001年
3 孔令男;容错技术高端商用领域的核心[N];中国国门时报;2004年
4 ;容错技术应用前景[N];中国高新技术产业导报;2004年
5 胡志敏;“双核”容错服务器来了[N];政府采购信息报;2007年
6 ;无时间损失的容错技术[N];中国计算机报;2003年
7 ;容错技术成为服务器市场的黑马[N];中国国门时报;2004年
8 刘雨;让容错服务器“平民化”[N];中国计算机报;2007年
9 边月;容错技术带来的高可用[N];计算机世界;2003年
10 宋家雨;Xeon加容错直追安腾?[N];网络世界;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978