收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

容错不死系统的研究与实现

林中一  
【摘要】:随着集群技术的发展,集群越来越广泛的被运用于科学计算领域。从理论上分析,集群模型既能提供高可用性和高性能,也能提供可管理性、可扩展性。但目前,这仅仅是模型上的理论阶段,为实现这个伟大梦想,集群软件还有很长的路要走。当集群开始被科学高性能计算领域应用时,可靠性就已经作为一个问题被提出了。随着系统硬件和软件复杂性的日益增加,越来越多的科学计算应用程序在提高性能的同时,也伴随着容错性与健壮性的保障。 本文构建了高性能计算容错不死系统,面向科学计算应用程序,以向用户提供保障服务和优质服务为己任。其中保障服务指的是用户只需向系统提交任务一次,系统就能在节点失效等多种恶劣条件下,顽强完成任务,最后返回计算结果给用户;优质服务指的是在系统中添加了可以预测系统性能和任务性能的智能模块,通过调整网格环境内各节点的负载情况,进行有效的子任务迁移,最终缩短总任务的运行时间。 本文针对并行计算问题,总结出由用户、管理节点和工作节点组成的任务模型,提出目录式、文件式和参数化的任务统一描述思路,便于任务的划分和有效管理。保障服务的实现主要依赖两项技术,单节点内任务复活技术和多节点间任务复活技术。任务复活指的是任务在意外终止的情况下能重启并恢复到原先状态继续运行。优质服务的实现也主要依赖两项技术,性能预测技术和任务迁移技术。其中性能预测指的是系统能根据网格内各节点的负载情况,判断并选择运行该任务最适宜的节点,任务迁移技术指的是任务从一个节点迁移到另外的节点继续运行。 在实现保障服务和优质服务的各种技术中,最关键和最基本的技术是检查点技术,检查点技术现有很多的实现方式,涉及用户级和系统级、修改源码和无需源码等多个方面。本文综合比较并分析了多种典型的检查点技术,然后融合几种检查点技术,根据自身试验环境的特点,提出容错不死系统的解决方案。最后经过实例分析,指出系统的特长与不足,以及未来展望。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨庚;一类求解非线性方程组算法的并行性能分析[J];计算机学报;2000年10期
2 王辉;并行计算在电信计费系统中的应用[J];广东通信技术;2002年05期
3 李涛,王华,刘培峰,刘光武,杨愚鲁;集群高效通信机制分析[J];计算机应用研究;2005年10期
4 韩成;赵斌;白宝兴;杨华民;范静涛;郭威;;基于集群的蚁群算法在TSP中的应用研究[J];长春理工大学学报(自然科学版);2008年04期
5 杨庚,王绍棣,沈金龙;基于曙光并行机的超大规模非线性方程组并行算法研究[J];计算机学报;2002年04期
6 南江;高超;郑博睿;;Altix 450在三维定常N-S层流数值模拟计算中的并行计算效率研究[J];航空计算技术;2010年02期
7 涂碧波;洪学海;詹剑锋;樊建平;;基于工作流的高性能计算用户环境的设计[J];计算机研究与发展;2007年10期
8 林新华;王左利;林新华;;困扰并行计算的三大问题[J];中国教育网络;2008年11期
9 王建明;张树斌;;浅谈GPU在遥感影像融合中的应用[J];太原科技;2010年01期
10 李战强;;集群高性能并行计算研究[J];中文信息;2003年05期
11 赵改善,包红林;集群计算技术及其在石油工业中的应用[J];石油物探;2001年03期
12 鞠九滨,魏晓辉,徐高潮,尹玉;DPVM:支持任务迁移和排队的PVM[J];计算机学报;1997年10期
13 杨正华,常军;微机小型网络并行计算系统的搭建与讨论[J];西安工程学院学报;2001年04期
14 戴建光;许军才;;高性能计算在水工上的应用[J];科技广场;2008年12期
15 刘晓尼;祝永志;傅莹;;一种基于异构系统的动态负载平衡算法[J];计算机与信息技术;2010年10期
16 武剑锋,戈弋,李三立;基于数据库的机群检查点的研究与实现[J];小型微型计算机系统;2002年03期
17 崔丽青,徐炜民;MPI容错问题的研究及实现[J];计算机应用;2003年S2期
18 章勤,杨中志,张继顺;一种基于PVM的交错一致检查点算法[J];华中科技大学学报(自然科学版);2002年02期
19 蒋文斌;;世界高性能计算领域的研究动向[J];国际学术动态;2005年05期
20 庞丽萍,陈宝利;基于相互独立检查点的MPI消息日志系统[J];华中科技大学学报(自然科学版);2004年08期
中国重要会议论文全文数据库 前10条
1 任伶;林新华;伍民友;李明禄;陆鑫达;陈英;;上海网格自适应网格引擎[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
2 潘海琳;张磊;何静;;地下工程开挖的并行计算[A];首届工程设计高性能计算(HPC)技术应用论坛论文集[C];2007年
3 王雷章;张爱武;;多视点三维数据配准的并行计算方法[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
4 王雷章;张爱武;刘晓萌;;三维建模中平面分割并行算法的设计与实现[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
5 王勇;;应急管理与高性能计算(节选)[A];“广东科协论坛第27期:高性能计算与技术创新”荟萃[C];2009年
6 袁勇;;地下结构高性能计算的挑战[A];首届工程设计高性能计算(HPC)技术应用论坛报告集[C];2007年
7 李根国;吴建成;;高性能计算在工业工程领域的应用和发展[A];庆祝中国力学学会成立50周年暨中国力学学会学术大会’2007论文摘要集(下)[C];2007年
8 ;陈仲驹[A];“广东科协论坛第27期:高性能计算与技术创新”荟萃[C];2009年
9 范晓樯;李桦;田正雨;;超声速/高超声速飞行器复杂流场大规模并行数值仿真[A];计算流体力学研究进展——第十二届全国计算流体力学会议论文集[C];2004年
10 齐进;叶文华;;三维激光烧蚀瑞利-泰勒不稳定性并行计算[A];中国空气动力学学会第十届物理气体动力学专业委员会会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 陈军;分布式存储环境下并行计算可扩展性的研究与应用[D];中国人民解放军国防科学技术大学;2000年
2 尹欣;三维弹性问题边界元法并行计算及其工程应用[D];清华大学;2000年
3 陈晓春;基于并行计算的大涡模拟方法及其工程应用基础研究[D];西安建筑科技大学;2004年
4 王开健;基于特大增量步算法的网络并行计算[D];清华大学;2005年
5 张理论;面向气象预报数值模式的高效并行计算研究[D];中国人民解放军国防科学技术大学;2002年
6 寇哲君;可扩展冲击—接触并行计算及其在汽车碰撞模拟中的应用[D];清华大学;2003年
7 刘丽;人工免疫网络研究及应用[D];江南大学;2008年
8 李姗姗;空间信息分布式协同高性能计算框架的初步研究[D];中国地质大学(北京);2009年
9 丁仁伟;双聚型CFP保幅处理及并行实现[D];中国石油大学;2009年
10 李毅;基于PVM的研究任务迁移,C++对象分布并行及Capability实现[D];电子科技大学;2001年
中国硕士学位论文全文数据库 前10条
1 林中一;容错不死系统的研究与实现[D];浙江大学;2006年
2 吴颖;一种基于LINUX的集群计算系统的设计与实现[D];四川大学;2005年
3 万婷婷;并行计算的网格应用研究[D];广东工业大学;2006年
4 韩光明;基于机群计算的热物性反问题高效分布式并行算法设计[D];武汉理工大学;2006年
5 张智勇;基于生物信息学应用的混合架构集群系统研究[D];华中科技大学;2007年
6 李世灵;基于Linux和MPI的集群并行系统的研究与实现[D];广东工业大学;2006年
7 刘战合;基于复合形方法的翼型优化设计及并行计算研究[D];西北工业大学;2004年
8 金光浩;有向图并行计算中的多目标剖分算法[D];中国工程物理研究院;2005年
9 岳常智;135四气门直喷式柴油机工作过程数值计算[D];大连理工大学;2006年
10 曹大勇;O_2在MgO(100)表面吸附的第一原理分子动力学研究[D];大连理工大学;2004年
中国重要报纸全文数据库 前10条
1 许泳;高性能计算需“软硬兼施”[N];计算机世界;2007年
2 本报记者 马文方;高性能计算的另类思维[N];中国计算机报;2009年
3 杨平;浪潮为7个项目颁创新奖[N];中国计算机报;2006年
4 本报记者  义川;浪潮高性能计算 创新奖颁奖[N];网络世界;2006年
5 本报记者  义 川;情系高性能计算[N];网络世界;2006年
6 本报记者 汤铭;高性能计算应用提速[N];计算机世界;2008年
7 张磊;浪潮高性能计算创新奖揭晓[N];中华工商时报;2006年
8 李佳师;从应用入手 推动高性能计算普及化进程[N];中国电子报;2008年
9 ;EnFuzion推动油田高性能计算[N];网络世界;2002年
10 本报记者 汤铭;国际HPC咨询委员会举办第二届中国研讨会[N];计算机世界;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978