收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

容错并行算法的研究与分析

杜云飞  
【摘要】: 随着系统规模的增加,大规模并行计算机的平均故障间隔时间远低于许多大规模科学应用的运行时间,因此大规模科学应用必须能够容忍硬件错误。传统的回滚恢复协议是目前大规模系统中常用的容错技术,在恢复时失效进程上的计算全部在一个处理器上重算。这是对计算资源的浪费,也使得恢复时间不可能小于前一个检查点和故障发生时刻之间的时间间隔。 为了缩短故障恢复时间,本文提出了一种新的容错方法:容错并行算法。文章从容错并行算法的理论基础、概念、设计方法及支撑工具等几个方法对容错并行算法进行了深入的研究,并对容错并行算法的性能进行了分析和测试。本文所做的创新工作主要体现在以下几点: 1、给出了并行计算在系统出现故障的情况下的可靠性定义,并基于任务依赖图给出了并行计算可靠性的定量分析方法;基于此分析方法,分析和比较了时间冗余和空间冗余的容错技术对并行计算可靠性的影响。 2、为了缩短故障恢复时间,有效提高并行计算的可靠性,提出了一种新的容错方法:容错并行算法。容错并行算法执行时在数据保存段保存计算的中间状态以保证故障时正确的复算;发生故障时未发生故障的处理器通过在线的方式感知故障处理机的故障,并自动通过并行复算恢复故障处理器上的负载。容错并行算法充分发挥无故障进程的计算能力,加速故障恢复过程,缩短了故障恢复时间,使得恢复时间可以远低于checkpoint和发生故障时刻之间的时间间隔。 3、容错并行算法设计的基本思想是以程序段为基础,添加数据保存段,故障检测段和复算段构成相应的容错程序段。本文系统地讨论了容错并行算法的设计方法,提出了面向容错并行算法的程序段的划分方法以及分割和合并原则;利用面向并行程序的定值-引用关系确定状态保存段中所需保存的数据;给出了两种复算段中并行复算代码的设计方法:基于循环并行化以及基于模板的方法。同时,还针对矩阵LU分解、快速傅里叶变换以及桶排序等三类典型的并行应用,设计并实现了其相应的容错并行算法。 4、为了降低容错并行算法给用户带来的编程负担,本文实现了一个面向MPI程序的容错并行算法设计的支撑工具GiFT。GiFT通过编译指导的方法实现程序段的划分;利用面向并行程序的控制流分析以及数据流分析方法自动确定保存的数据,实现了容错并行算法数据保存的低开销以及数据保存段的自动设计;通过编译指导的方法,实现了基于循环并行化以及基于模板的并行复算代码生成的自动化。 5、容错并行算法的性能分析与实验。首先,给出了故障情况下的容错并行算法的性能度量,建立了考虑系统故障情况下的性能模型来预测容错并行算法的完成时间,并以此为基础评估了程序段的运行时间、数据保存开销、故障率以及并行复算加速比等系统参数对容错并行算法性能的影响;随后,针对科学计算中的6个典型测试用例在一个1024个处理器的集群系统上对容错并行算法的性能进行了测试并与系统级checkpointing方法进行了对比,这6个典型测试用例包括矩阵乘程序和5个NPB核心测试用例(EP、IS、CG、MG和FT)。结果表明与checkpointing方法相比,容错并行算法有性能上的优势。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张大鹏,陈骏林;图象处理并行算法分析及其实现[J];宇航学报;1989年02期
2 贺瑞容,吴恩华;物理场图形生成的多处理机并行算法的研究和实现[J];计算机学报;1992年01期
3 曾泳泓,蒋增荣;GFT及离散卷积的并行算法及其实现[J];数值计算与计算机应用;1993年01期
4 张可军;陈福接;;求解线性丢番图方程(组)的串、并行算法[J];计算机工程与科学;1993年01期
5 朱和;李晓梅;;计算几何与并行算法[J];计算机工程与科学;1993年03期
6 杨克复;;并行处理技术[J];沈阳理工大学学报;1993年01期
7 任春丽,徐甲同,王俊平;实对称三对角矩阵特征值的一种并行算法及实现[J];西安电子科技大学学报;1999年02期
8 徐娟,汪懋华;用于图象处理的小波变换并行算法[J];小型微型计算机系统;1999年01期
9 董科军,刘让苏,郑采星,胡庆丰,何新芳;液态金属凝固过程分子动力学模拟的并行算法研究[J];计算机工程与科学;2000年03期
10 杨克复,马忠胜;非线性优化的并行算法[J];沈阳工业学院学报;2000年02期
11 易法令,李庆华,杨薇薇;Delaunay三角剖分并行算法研究及实现[J];小型微型计算机系统;2001年04期
12 重剑无锋;;并行算法中指针转移技术解析[J];中文信息;2003年10期
13 陈静瑾,邓雅诺,马文龙,余宁梅;USB2.0中CRC码的并行算法及硬件实现[J];西安理工大学学报;2004年03期
14 陈宏建,陈崚,李开荣,陈莉莉;RAPWBN的矩阵乘法并行算法[J];计算机工程;2004年23期
15 谭国律,陈博政;关于矩阵最优路径算法的探讨[J];计算机应用与软件;2005年01期
16 周益民,孙世新,田玲;一种实用的所有点对之间最短路径并行算法[J];计算机应用;2005年12期
17 李晓梅;吴建平;;Krylov子空间方法及其并行计算[J];计算机科学;2005年01期
18 李云强;;数据挖掘中关联规则算法的研究[J];大众科技;2006年01期
19 隽志才;倪安宁;贾洪飞;李杰;;两种策略下的最短路径并行算法研究与实现[J];系统工程理论方法应用;2006年02期
20 王元元;曾建潮;谭瑛;;基于环形结构带缓存器模型的并行微粒群算法[J];微电子学与计算机;2006年09期
中国重要会议论文全文数据库 前10条
1 王元元;曾建潮;谭瑛;;基于并行计算模型的并行微粒群算法的性能分析[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
2 王轶;席裕庚;;并行的极点配置算法及其新构想[A];1994年中国控制会议论文集[C];1994年
3 杜云飞;王攀峰;富弘毅;周海芳;杨学军;;矩阵LU分解的容错并行算法设计与实现[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
4 曹淑瑛;郭圣权;樊水康;;并行极点配置算法探讨[A];1995年中国控制会议论文集(下)[C];1995年
5 王韶娟;曾国荪;;分形维数的一个并行算法[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
6 陈宁涛;王能超;施保昌;;生物多序列比对的并行算法[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
7 孙明珠;王鹏;邱枫;杨玉良;;自洽场理论的实空间求解方法的并行算法以及在嵌段共聚物相分离中的应用[A];2005年全国高分子学术论文报告会论文摘要集[C];2005年
8 李朝鹏;李肯立;;基于分层聚类的并行数据预处理算法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
9 姜弘道;余天堂;;有限元并行分析的进展——第九届全国结构工程学术会议特邀报告[A];第九届全国结构工程学术会议论文集第Ⅰ卷[C];2000年
10 张红虎;吴硕贤;;声学辐射度方法的并行实现[A];第十届全国噪声与振动控制工程学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 戚晶晶;热物性反问题高效并行算法研究[D];武汉理工大学;2013年
2 付红;量子动力学中并行算法的发展与应用[D];中国科学院研究生院(武汉物理与数学研究所);2013年
3 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
4 江岭;基于DEM的流域地形分析并行算法关键技术研究[D];南京师范大学;2014年
5 韩丛英;若干优化问题的并行算法研究[D];上海交通大学;2008年
6 周杰;合成孔径雷达数据处理应用的细粒度并行算法与结构[D];国防科学技术大学;2010年
7 赵志恒;基于多核CPU和GPU的生物序列分析并行算法研究[D];国防科学技术大学;2013年
8 白洪涛;基于GPU的高性能并行算法研究[D];吉林大学;2010年
9 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
10 谭国真;时变、随机网络最优路径算法及其应用研究[D];大连理工大学;2002年
中国硕士学位论文全文数据库 前10条
1 辛师勃;并行信号处理系统研究[D];南京理工大学;2004年
2 吴青;基于地理信息系统的配电网优化规划的研究[D];广西大学;2004年
3 刘淼;基于平衡分割的并行序列比对[D];西安电子科技大学;2007年
4 潘海琳;高拱坝体形优化决策系统研究[D];河海大学;2006年
5 焦建英;求解微分方程的区域分解两重网格算法[D];西安理工大学;2007年
6 游聪伟;基于GPU平台的KLU并行算法的研究:对角线块的LU分解[D];内蒙古大学;2011年
7 于战华;跨声速欧拉方程并行算法研究及应用[D];南京航空航天大学;2004年
8 平晓慧;最短路径问题的并行算法研究[D];大连理工大学;2006年
9 孙超;快速分形图像压缩并行算法研究与实现[D];曲阜师范大学;2011年
10 彭强;基于并行Boost图库的单源最短路径并行算法的研究[D];华南理工大学;2010年
中国重要报纸全文数据库 前10条
1 ;并行算法研究进展[N];中国计算机报;2004年
2 李讯 特约记者 刘程 本报记者 于莘明;银河有颗闪亮的星[N];科技日报;2005年
3 ;名师上讲台:每堂课都是精心编排的演出[N];科技日报;2006年
4 清华大学计算机系 薛巍;电网仿真考验高性能计算[N];计算机世界;2006年
5 陈文光 郑纬民;高性能计算的三大研究领域[N];计算机世界;2006年
6 曙光信息产业有限公司研发中心 温鑫;并行计算软件开发概述[N];中国计算机报;2007年
7 英特尔微处理器技术实验室主任工程师 Anwar Ghuloum;并行编程为什么这么难?[N];中国计算机报;2007年
8 本报记者 赵波 本报特约记者 刘程 本报通讯员 章立丁;一位巾帼学者的无悔征程[N];解放军报;2005年
9 新华社记者 奚启新 本报记者 廖文根;三次选择 无怨无悔[N];人民日报;2005年
10 孙;"生物信息处理专用计算机与算法研究" 通过验收[N];计算机世界;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978