收藏本站
《国防科学技术大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

大规模分布式仿真系统容错关键技术研究

刘云生  
【摘要】: 容错(fault tolerance)是分布式系统中一个富有挑战性的问题,也是当前大规模分布式仿真领域的一个研究热点。由于容错需要解决失效监控、状态保存与恢复及容错调度等一系列理论问题,同时,它又直接决定了分布式仿真系统的可靠性,因此,研究分布式仿真系统的容错具有重要的理论和实际意义。论文充分考虑了大规模分布式仿真系统的特殊性,结合网格的技术优势,对该类系统的容错需要解决的理论及工程实践问题进行了深入、系统的探索与研究。 论文首先进行了分布式仿真容错系统(Distributed Simulation Fault-tolerant System,DS-FTS)的框架结构设计。分析了网格对解决分布式仿真系统中相关不足的意义,确立了基于网格技术实现DS-FTS的总体思路;分析了仿真系统容错的影响因素并引入了仿真系统全过程容错的思想;对仿真系统不同层次上可能发生的故障进行了分析并确定了DS-FTS的容错等级;对分布式仿真系统的容错设计模式进行了初步研究;分析了DS-FTS和仿真系统的相对关系,进行了DS-FTS的层次设计和功能结构设计,明确了DS-FTS需要解决的关键技术问题。 失效探测是容错的前提,其性能受系统模型时间特性的影响。论文分析了大规模分布式仿真系统时间特性的特点,将不可靠失效探测器的思想引入到仿真系统的失效探测中,并在此基础上借鉴HLA仿真系统多联邦结构的特点提出了一种通用的、分布的层次式系统级失效探测算法Hi-UA-DSD。在该算法中,仿真节点被划分为多个分测试环,相应的失效探测分为环内失效探测和环间失效探测,前者基于UA-DSD算法,后者基于UA-DSD-Int算法。算法的正确性证明及评估结果表明,与其它算法相比,该算法具有更高的准确性、更小的网络开销、更低的诊断延迟和更好的可扩展性,可解决大规模分布式仿真系统的失效探测问题。此外,当系统规模相对较小时,可考虑用相对简单的UA-DSD算法替代Hi-UA-DSD。 系统状态存储协议提供容错所需的系统状态数据。IEEE 1516-2000中提供了一种阻塞式的系统状态存储协议,这在实际使用时会给系统带来很大开销。根据对系统状态存储过程中仿真组件状态变化影响因素的分析,论文提出了一种非阻塞式的系统状态存储协议CICCP。该协议完整地解决了由于在系统状态存储期间允许时间推进导致所保存的RTI状态和对应成员状态时间上的不一致、由于成员问消息传递导致不同成员状态的不一致及in-transit消息问题。较原有协议,CICCP的开销大大降低。此外,为保证联邦恢复的一致性,对于一般HLA分布式仿真系统,论文提出了一种交叉时间推进的方法消除了零前瞻量对联邦恢复一致性的影响;对于分布式实时仿真系统,论文利用网络QoS(Quality of Service)技术对HLA的OMT(Obiect Model Template)及数据传输服务进行了局部扩展以保证网络的可重复性,从而最终保证联邦恢复的一致性。上述协议及解决方案可扩展用于解决其它类型的大规模分布式仿真系统的类似问题。 不同的检查点文件存放策略的开销不同,而且上述失效探测及系统状态存储也会给系统带来开销。论文基于Markov链建立了分布式仿真系统的模型,以最大化系统的可用度为目标对上述问题进行了研究,给出了适用于分布式仿真系统的检查点文件存放策略及最佳心跳、检查点间隔的计算公式。该部分的研究是对前两部分研究的补充。 容错调度算法是容错的最终体现,失效监控及系统状态存储都为容错调度服务。本部分首先基于ICM(Imprecise Computation Model)的思想,提出了一个容错调度算法框架ICM-FTSA。然后根据两种容错模型,提出了两类异构分布式仿真系统的容错调度算法:①提出了CSP-RTFT算法并进行了仿真评估,该算法基于一种改进的空闲处理机模型(Checkpoint-based Spare Processor,CSP)进行容错;②提出并分析了两个基于PB(Primary-Backup)模型的容错调度算法MW-RTFT和RC-RTFT:MW-RTFT基于最小最坏反应时间(Worst Case Response Time,WCRT)启发式规则进行主版本任务的调度,RC-RTFT则综合利用了最小可靠性代价及最小WCRT两种启发式规则进行主版本任务的调度;两个算法中副版本任务的调度都是基于最小WCRT启发式规则。两类算法可以满足不同情况下大规模分布式仿真系统的容错调度需求,并且都可以嵌入到ICM-FTSA中以产生更为灵活的算法。 在工程实践方面,论文根据所设计的DS-FTS的框架结构,结合上述理论研究成果,分别实现了DS-FTS的失效探测模块、系统状态保存与恢复模块及容错调度模块。在具体应用方面,基于仿真系统全过程容错的思想对某HLA对抗仿真系统进行了重新设计、开发,并将DS-FTS用于为该仿真系统提供容错运行支撑。结果表明综合利用仿真系统全过程容错的思想及DS-FTS可基本解决分布式仿真系统的容错问题。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:TP302.8;TP391.9

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 裴丹,汪东升,沈美明,郑纬民;WOB:一种新的文件检查点设置策略[J];电子学报;2000年05期
2 刘云生,张传富,张童,查亚兵,黄柯棣;基于Markov链的分布式仿真系统最佳检查点间隔研究[J];国防科技大学学报;2005年05期
3 阳春华,计莉,沈德耀,桂卫华;实时多处理机系统BEST-FIT启发式容错调度[J];计算机工程与科学;2003年05期
4 闵应骅;网络容错与安全研究述评[J];计算机学报;2003年09期
5 阳春华,桂卫华,计莉;基于多处理机的混合实时任务容错调度[J];计算机学报;2003年11期
6 秦啸,韩宗芬,庞丽萍;基于异构分布式系统的实时容错调度算法[J];计算机学报;2002年01期
7 魏晓辉,鞠九滨;分布式系统中的检查点算法[J];计算机学报;1998年04期
8 刘云生;张传富;张童;查亚兵;黄柯棣;;分布式仿真系统socket迁移[J];系统仿真学报;2006年02期
9 刘云生;张童;张传富;查亚兵;;分布式仿真任务的最坏反应时间分析[J];系统仿真学报;2006年10期
10 张传富,刘云生,张童,查亚兵;分布式仿真网格平台的关键技术研究[J];系统仿真学报;2005年10期
中国博士学位论文全文数据库 前6条
1 蒋江;异构集群系统中基于进程迁移机制的负载平衡算法的研究[D];国防科学技术大学;2002年
2 陈锡明;基于NOW的任务调度和负载平衡方法研究[D];电子科技大学;2000年
3 郝建国;高层体系结构(HLA)中的多联邦互连技术研究与实现[D];中国人民解放军国防科学技术大学;2003年
4 尹全军;基于多Agent的计算机生成兵力建模与仿真[D];国防科学技术大学;2005年
5 魏洪涛;基于网格计算的仿真任务管理与调度方法研究[D];国防科学技术大学;2005年
6 朱承;基于资源类型的非集中式网格资源发现方法研究[D];国防科学技术大学;2004年
中国硕士学位论文全文数据库 前1条
1 张童;基于网格的分布式仿真研究[D];国防科学技术大学;2003年
【共引文献】
中国期刊全文数据库 前10条
1 叶国骏;李莉丽;雷航;;基于EDF的分布式系统实时容错调度算法[J];计算机工程;2006年04期
2 杜宗霞,怀进鹏,王勇,张煜;组合Web Service支撑系统的研究与实现[J];北京航空航天大学学报;2003年10期
3 金旭亮,龚元明;RAD环境下用户界面密集型软件快速建模方法[J];北京理工大学学报;2001年06期
4 闫波,战守义;基于拦截器实现EJB容器方法调用[J];北京理工大学学报;2004年02期
5 郑天华;王学成;;基于Eclipse的通用用户权限管理插件的设计与实现[J];长春理工大学学报;2005年04期
6 龚强;构建地理空间信息网格基础底层的若干支撑技术[J];测绘科学;2005年05期
7 龚强;;发展我国地理空间信息网格技术的探讨[J];地理信息世界;2005年05期
8 金宝轩,边馥苓;基于OGSA-DAI的空间数据访问和集成研究[J];测绘信息与工程;2005年03期
9 陈娟,王汝传;开放网格服务结构中WSRF与OGSI的比较分析[J];江苏技术师范学院学报;2005年04期
10 任洛漪,秦开宇,李志强;可复用仿真系统软件构架设计[J];电讯技术;2005年02期
中国重要会议论文全文数据库 前10条
1 彭明军;;城市空间信息多级网格研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
2 李章漾;杨榆;;使用Hibernate完善的Struts框架的设计与实践[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
3 李超;侯光明;;网格计算系统中的几种常见动态副本策略及其比较[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
4 刘怀;;基于RMS的异构分布式控制系统容错调度算法[A];第二十三届中国控制会议论文集(下册)[C];2004年
5 赵宏;吾守尔·斯拉木;侯勇;刘欣文;姚正亮;;视频网格模拟器的构建与实现[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年
6 李文哲;张宇文;李铁;范辉;;鱼雷作战效能研究平台的HLA设计[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年
7 赵正德;王晓华;石秀丽;;网格工作流模型和协同机制的研究与实现[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
8 赵宏;吾守尔·斯拉木;;基于网格的软件共享技术研究[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
9 汪婷婷;吴军华;朱莹;刘一田;;基于RDF/XML的网格资源分层描述[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
10 王少波;刘艳斌;;基于网格技术的企业动态联盟资源信息共享系统的研究[A];成组技术与大批量定制学术研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 王涛;实时系统任务调度若干关键技术的研究[D];哈尔滨工程大学;2006年
2 马民;分布式交互仿真中容错和实时技术研究[D];国防科学技术大学;2006年
3 陈香兰;面向服务的分布式操作系统及其上的服务组合关键技术研究[D];中国科学技术大学;2007年
4 陈锡明;基于NOW的任务调度和负载平衡方法研究[D];电子科技大学;2000年
5 邹勇;开放式实时系统的调度方法研究[D];中国科学院研究生院(软件研究所);2003年
6 周双娥;实时分布容错系统的任务调度技术研究[D];哈尔滨工程大学;2003年
7 闵帆;基于试探的任务分配算法研究[D];电子科技大学;2003年
8 黄金贵;网络并行计算环境中基于多处理机任务的调度研究[D];中南大学;2003年
9 阳春华;工业实时系统多任务容错调度技术及应用研究[D];中南大学;2002年
10 彭舰;基于CORBA的分布式系统中实时—容错性的研究——分布式系统中动态调度的设计与实现[D];电子科技大学;2004年
中国硕士学位论文全文数据库 前10条
1 李莉丽;实时分布系统容错调度算法的设计与实现[D];电子科技大学;2005年
2 杨国强;分布式多媒体软件系统的时间特性分析技术[D];国防科学技术大学;2005年
3 李松涛;并行多处理器系统容错的研究与实现[D];电子科技大学;2006年
4 许柯;嵌入式操作系统RTEMS-for-SPARC的研究与设计[D];国防科学技术大学;2005年
5 刘勇;基于DNA-GA的最早截止期限优先调度算法优化[D];太原理工大学;2007年
6 谢建平;单处理器环境下实时混合任务的调度算法研究[D];武汉理工大学;2008年
7 常卓;计算机免疫系统GECISM中的回滚、备份与设障[D];河北大学;2004年
8 王翠平;分布式系统中的任务调度问题及遗传算法应用研究[D];青岛大学;2002年
9 王丽华;计算机容错系统的体系结构与安全性研究[D];西南交通大学;2002年
10 王晋强;基于应用模型的多源空间数据引擎研究[D];北京工业大学;2003年
【同被引文献】
中国期刊全文数据库 前10条
1 林剑柠,吴慧中;基于遗传算法的网格资源调度算法[J];计算机研究与发展;2004年12期
2 季一木;王汝传;;基于粒子群的网格任务调度算法研究[J];通信学报;2007年10期
3 李伯虎,柴旭东,朱文海,孙家广,梁炳成,吴慧中,彭晓源;SBA支撑环境技术的研究[J];系统仿真学报;2004年02期
4 刘云生,查亚兵,张传富,张童,黄柯棣;分布式仿真系统容错机制研究[J];系统仿真学报;2005年02期
5 卢毅军,韩宗芬,刘科;一种基于集群服务器的动态调度模型研究[J];华中科技大学学报(自然科学版);2001年12期
6 王晓川,叶超群,金士尧;一种基于分布式调度机制的集群体系结构[J];计算机工程;2002年08期
7 嵇鹏,罗军舟;侧重任务调度的网格计算底层支撑系统模型[J];计算机工程;2003年21期
8 张永坤,金海,唐丹;一种基于进程剩余运行时间总和的集群动态负载平衡算法[J];计算机工程与科学;2005年05期
9 秦啸,韩宗芬,庞丽萍;基于异构分布式系统的实时容错调度算法[J];计算机学报;2002年01期
10 金海,陈汉华,吕志鹏,宁小敏;CGSP作业管理器合成服务的QoS优化模型及求解[J];计算机学报;2005年04期
中国博士学位论文全文数据库 前5条
1 魏洪涛;基于网格计算的仿真任务管理与调度方法研究[D];国防科学技术大学;2005年
2 李双庆;Web服务器集群技术研究[D];重庆大学;2003年
3 刘宝宏;多分辨率建模的理论与关键技术研究[D];国防科学技术大学;2003年
4 孙世霞;复杂大系统建模与仿真的可信性评估研究[D];国防科学技术大学;2005年
5 张传富;仿真网格资源管理系统关键技术研究[D];国防科学技术大学;2006年
中国硕士学位论文全文数据库 前6条
1 陈刚;集群和网格环境下作业调度系统的研究[D];华中科技大学;2004年
2 杨振兴;机群计算在可视化平台中负载均衡策略的研究[D];广东工业大学;2005年
3 曲绍云;分布式异构系统中任务调度问题的研究[D];青岛大学;2005年
4 余科军;分布式实时系统任务调度算法的设计和实现[D];四川大学;2006年
5 蔡美玲;基于QoS的Web服务选择及组合服务运行时容错研究[D];湖南师范大学;2007年
6 吕昌国;基于BP算法的网格资源调度研究[D];哈尔滨理工大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 王昌金,龚光红,王行仁;计算机生成兵力[J];北京航空航天大学学报;1999年03期
2 陈锡明,卢显良,宋杰;多个假设应用于同一结论时综合置信度的一种计算方法[J];电子科技大学学报;1999年05期
3 陈锡明,祝正威,卢显良;用AUTES实现雷达辐射源识别专家系统[J];电子科技大学学报;2000年03期
4 裴丹,汪东升,沈美明,郑纬民;WOB:一种新的文件检查点设置策略[J];电子学报;2000年05期
5 陈锡明,卢显良;机群系统中基于PVM的智能化任务分配和负载平衡模型[J];电子与信息学报;2001年12期
6 曹星平,黄柯棣;RTI测试研究[J];国防科技大学学报;2002年06期
7 刘云生,张童,张传富,查亚兵;基于网格的分布式仿真系统容错机制[J];国防科技大学学报;2005年01期
8 刘云生,张传富,张童,查亚兵,黄柯棣;基于Markov链的分布式仿真系统最佳检查点间隔研究[J];国防科技大学学报;2005年05期
9 姜思杰,徐晓飞;一类资源负荷均衡问题的优化调度算法[J];高技术通讯;2000年11期
10 徐庚保;数据通信与实时仿真[J];航天控制;1998年01期
中国博士学位论文全文数据库 前10条
1 陈锡明;基于NOW的任务调度和负载平衡方法研究[D];电子科技大学;2000年
2 钱仲焱;复杂结构协同优化理论、方法及技术的研究[D];浙江大学;2001年
3 蒋江;异构集群系统中基于进程迁移机制的负载平衡算法的研究[D];国防科学技术大学;2002年
4 周鸿伟;武器系统总体概念设计集成技术研究[D];国防科学技术大学;2002年
5 冯润明;基于高层体系结构(HLA)的系统建模与仿真研究[D];国防科学技术大学;2002年
6 杨冬菊;异构集群管理系统的关键技术研究[D];西北工业大学;2002年
7 汤小春;基于集群技术的作业管理系统的研究与实现[D];西北工业大学;2002年
8 黄逸民;基于多Agent的智能管理信息系统理论与应用研究[D];浙江大学;2002年
9 曲庆军;高层体系结构(HLA)中兴趣管理的研究和实现[D];中国人民解放军国防科学技术大学;2003年
10 郝建国;高层体系结构(HLA)中的多联邦互连技术研究与实现[D];中国人民解放军国防科学技术大学;2003年
【相似文献】
中国期刊全文数据库 前10条
1 刘东;张春元;;容错调度算法中反向调度与正向调度性能分析[J];计算机工程;2007年12期
2 潘雪增;姚鑫骅;傅建中;陈子辰;;基于回卷恢复的数控系统实时容错调度策略[J];浙江大学学报(工学版);2007年12期
3 王培东;魏振华;;星载计算机系统高优先级恢复容错调度算法[J];西安交通大学学报;2006年08期
4 孟庆春;刘云卿;;一种新的分布式控制系统容错调度算法[J];计算机工程;2010年02期
5 刘东;张春元;李瑞;黄影;李毅;;基于预测表的容错实时调度算法[J];西安交通大学学报;2007年06期
6 刘东;张春元;;软件容错模型中反向与正向调度算法研究[J];计算机工程与科学;2007年09期
7 邓会敏;贺再红;;Web集群中基于实时概率的容错调度算法研究[J];计算机与信息技术;2007年04期
8 刘怀;沈捷;黄建新;;一类分布式控制系统的容错优化调度算法[J];系统仿真学报;2008年22期
9 姚鑫骅;傅建中;陈子辰;潘雪增;;面向数控系统的优化调度算法及容错策略研究[J];计算机集成制造系统;2007年04期
10 韩宗芬;王俊;袁平鹏;谭朋柳;;基于非精确计算的保证计算质量的容错调度[J];华中科技大学学报(自然科学版);2006年12期
中国重要会议论文全文数据库 前1条
1 张彬桥;王鹏宇;刘荣章;李咸善;;水电站分布式仿真系统中自适应模型调度算法[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年
中国博士学位论文全文数据库 前7条
1 刘云生;大规模分布式仿真系统容错关键技术研究[D];国防科学技术大学;2006年
2 阳春华;工业实时系统多任务容错调度技术及应用研究[D];中南大学;2002年
3 姚鑫骅;数控实时系统调度理论及应用研究[D];浙江大学;2006年
4 朱晓敏;异构集群系统中实时任务若干调度问题研究[D];复旦大学;2009年
5 陈艾;面向能耗优化的分布式实时系统调度算法研究[D];中国科学技术大学;2007年
6 罗威;分布式实时容错调度算法研究[D];华中科技大学;2008年
7 朱敏;无源光网络及其光子网格应用的关键技术研究[D];上海交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 罗振山;云计算中资源管理容错调度优化策略研究[D];浙江工商大学;2011年
2 李其胜;服务网格中带实时特性的容错调度[D];华中科技大学;2004年
3 张智超;高可信赖嵌入式操作系统内核的研究与实现[D];电子科技大学;2004年
4 许晖;筑路机械机群多智能主体混杂系统容错调度研究及系统仿真[D];天津大学;2006年
5 邓会敏;Web集群容错调度算法设计与实现[D];华南理工大学;2011年
6 符利华;基于CPS的实时系统的面向方面的容错调度模型[D];广东工业大学;2011年
7 苏晓龙;SmartOSEK容错运行库[D];浙江大学;2007年
8 同爱丽;实时多任务调度方法研究与应用[D];西北工业大学;2006年
9 王晓宇;实时任务在集群计算中的自适应容错调度研究[D];复旦大学;2010年
10 刘晶晶;分布式多节点容错系统的设计与实现[D];大连理工大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026