收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向分布式集群计算的容错技术研究与设计

张新洲  
【摘要】:随着移动互联网和社交媒体的不断发展,政府和企业对海量数据的存储和管理需求也急速增长。由于单节点数据管理系统存在严重的单点失效问题,同时也缺乏对海量数据的管理能力,为此分布式集群数据管理系统已成为未来发展的趋势,将极大地增加系统的处理能力和可用性。近年来,分布式集群数据管理系统越来越受到人们的关注,并已广泛地应用于民航、金融、工业控制等任务关键型领域(mission-critical)。就整个系统总体而言,分布式系统比传统集中式系统更可靠,但是分布式系统存在着部分失效问题、时钟不一致问题、消息传递失效等问题,最终将导致数据管理的失败,并造成重大经济损失。容错技术是解决上述分布式系统问题的重要手段,可以有效提高系统的可靠性。基于内存计算的无共享并行数据库系统已然成为快速分析关系型数据的利器,CLAIMS系统为此类系统之一,旨在充分利用内存计算的迅捷性来提升数据处理的性能。内存数据的存取速度是磁盘数据存取速度的200倍左右,内存计算是实时数据分析的基础,但是内存的易失性也对内存集群计算系统的容错性提出了更高的要求。因此,如何提高分布式集群下高速计算系统的容错性,保证系统运行的可靠性和可用性已成为首当其冲需要解决的问题。目前主流系统中的容错手段还比较单一,并不能满足规模日益增长的集群系统的需求。CLAIMS系统同样面临着这样的问题,设计出一套完整的高可用容错机制迫在眉睫。目前实际应用中主要的容错手段包括组件备份,检查点设置,作业迁移等,在一定程度上解决了分布式系统容错的问题,但无法满足内存集群计算系统的需求。针对复杂任务长时间连续作业的情形,我们提出了更加先进的混合容错机制,并且针对每一种容错手段进行优化、改进、组合,并提出新的算法理念。本文立足于CLAIMS分布式内存数据库系统,设计了CLAIMS系统中的容错系统,采用混合容错方式,将k-safe多投影存储、自适应动态心跳检测机制、执行计划切分选择性持久化和动态检查点设置进行了实现和优化。设计了CLAIMS系统中针对QoS服务级别的编程框架。充分的实验证明在OLAP系统中处理任务中具有较好的容错性。解决了传统方法中检查点设置单一,恢复效率低下的问题,本文主要的工作以及贡献包括:1.基于HDFS分布式文件系统,设计了CLAIMS的底层文件存储系统。数据不再是单一的多文件备份,而是采用k-safe的文件存储方式,将系统查询中的数据表以列存储方式投影多份,并保证原数据表中的每一列至少有k份。每一份列存储投影均被哈希水平切分成多个数据块,每一个数据块大小为64MB。该k-safe数据处理方式,一方面能加速查询时数据的加载数据速度,另一方面在系统出现故障之后可以保证数据的可恢复性,从而大大提高了系统失效时数据恢复效率,为系统容错提供数据保障。2.在容错系统设计中加入了自适应式的心跳检测机制,改进了以往单一的固定频率心跳消息传递机制,从而大大降低了平均发现故障的时间延迟。具体操作上依据实时系统资源状态动态调整集群中各个节点之间消息传递的频率,结合主机的负载变化制定节点直接心跳消息传递的策略。在考虑到集群达到一定规模情况下心跳消息会增加负载的情况下,本文还采用了多播的消息传递方式降低心跳检测造成的数据延迟问题。3.将QoS服务功能应用到CLAIMS系统中来,针对不同的数据查询操作划分不同的执行功能,按照各自功能的标准定义每个阶段的处理方法,将QoS服务质量作为指标加入到容错模块中来,使得故障的部分指标得以量化;同时在代码实现层面采用OpenMPI编程函数库,针对容错特性进行了改进,在消息传递和数据交互的时候采用这种编程模型,提高容错性能。4.提出了动态设置检查点的方法,为每一个查询的执行计划计算出对应设置检查点的消耗模型,基于动态规划的思想从全局最优化出发,通过迭代为每一阶段的操作计算设置检查点的代价,比较当前节点设置检查点所带来的磁盘I/O开销和从底层叶子节点回溯重新执行任务至当前节点的开销,最终为整个执行计划树确定设置检查点的方案,使得整个查询在出错的情况下重新恢复执行的时间最小。上述功能的设计与实现,形成了CLAIMS系统中的容错模块,本文详细叙述了上述功能以及之间的关联关系。通过实验比较,证明了该方法在内存集群计算环境下,与传统单一的容错方案相比,在可靠性和可用性方面具有显著的提升。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王利;;集群计算[J];计算机教育;2004年12期
2 王宏琳;基于网络的地震数据处理——从集群计算系统到网格计算系统[J];石油地球物理勘探;2003年04期
3 黄金贵,陈建二,陈松乔;网络集群计算系统中的并行任务调度[J];计算机学报;2004年06期
4 许美玲;乔莹;莫毓昌;钟发荣;;基于二元决策图的集群计算系统性能分析[J];计算机应用;2017年02期
5 宋丽君;马骏;赖积保;余涛;李治;;基于改进集群计算的遥感数据快速处理平台[J];福建电脑;2012年11期
6 汪东升,郑纬民;高可用集群计算[J];小型微型计算机系统;2000年11期
7 王利;;海外传真 通过集群计算项目综合运用信息系统课程知识[J];计算机教育;2004年12期
8 王大恒;;集群作业调度优化技术研究[J];信息化建设;2016年04期
9 吕海;邸瑞华;龚华;;大规模结构有限元分析程序在多核集群计算环境中的性能分析和优化[J];计算机科学;2012年01期
10 曾碧卿,陈志刚,邓会敏,刘伟;集群计算系统中并行I/O模拟器的研究与设计[J];计算技术与自动化;2004年03期
11 杜鸿,赵越超,薛弘烨;实时集群计算技术在相控阵雷达中的研究[J];现代雷达;2004年06期
12 姚益平;张颖星;;集群计算环境下基于复杂网络的社会学仿真负载划分优化算法[J];计算机研究与发展;2011年09期
13 曾碧卿,陈志刚,刘安丰,曾志文;一种集群计算系统中并行I/O文件存储分配策略[J];小型微型计算机系统;2005年05期
14 黄蓉;俞建新;;基于智能存储设备的共享存储集群系统研究[J];计算机工程与设计;2007年16期
15 曾小荟;雷艳静;刘君瑞;康继昌;;OCCP:基于B/S模式的高可靠多集群计算平台[J];计算机工程;2006年11期
16 余平;;基于混合域代理的云计算数据安全[J];网络安全技术与应用;2015年10期
17 向建军;吴军;易春海;;基于多源信息处理的实时集群计算的设计[J];微电子学与计算机;2009年02期
18 王国明;侯整风;王一春;;集群计算系统的分析与研究[J];电脑知识与技术;2006年32期
19 刘维峰,卢伟,许海燕;基于局域网和MPI的PC集群计算环境[J];计算机工程与设计;2005年05期
20 罗秋明;王梅;雷海军;张红兵;;MPI全互换通信的性能优化[J];计算机工程与应用;2006年16期
中国重要会议论文全文数据库 前19条
1 张鲁飞;程华;;高性能计算机容错技术综述[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(下册)[C];2010年
2 王东盛;;容错技术在卫星控制系统中的应用[A];第十届全国容错计算学术会议论文集[C];2003年
3 盖璐璐;张涛;徐建军;谭庆平;;一种低开销的可配置容错技术[A];第十九届计算机工程与工艺年会暨第五届微处理器技术论坛论文集[C];2015年
4 陈伟;朱海锋;曾广勇;;大型水电厂调速器导叶开度测量容错技术改进[A];抽水蓄能电站工程建设文集2012[C];2012年
5 单书畅;胡瑜;李晓维;;多核处理器的核级冗余容错技术[A];第六届中国测试学术会议论文集[C];2010年
6 裴选;薛旭;;浅谈河北电视台全台网未来的发展思路[A];第23届中国数字广播电视与网络发展年会暨第14届全国互联网与音视频广播发展研讨会论文集[C];2015年
7 卢光军;陆佩忠;;一种基于集群计算的软件无线电接收系统实现[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
8 龚健;杨孟飞;;硬件进化系统的容错性研究[A];第十四届全国容错计算学术会议(CFTC'2011)论文集[C];2011年
9 谈伟华;吴晓芬;戈欣;许建荣;;双机容错技术在PACS/RIS中的应用[A];2009中华医学会影像技术分会第十七次全国学术大会论文集[C];2009年
10 邹学忠;吴昊;;集群计算系统在基础测绘DOM数据更新项目中的应用[A];第二十届华东六省一市测绘学会(江苏)学术交流会论文集[C];2018年
11 李根成;王镛根;;基于偏差分离估计器的故障诊断与容错技术[A];1995中国控制与决策学术年会论文集[C];1995年
12 黄福明;;容错技术在宝钢过程控制系统的应用[A];中国计量协会冶金分会2009年年会论文集[C];2009年
13 张永生;;现场直播式地理空间信息服务的构思与体系[A];第十七届中国遥感大会摘要集[C];2010年
14 彭慧敏;马明;郑伟;徐伟;周海锋;曾兴嘉;;在线组合输电断面极限集群计算[A];中国智能电网学术研讨会论文集[C];2011年
15 陈文升;;浅析内外环境变化给估价机构发展带来的新问题[A];估价需求演变与机构持续发展:2019中国房地产估价年会论文集[C];2019年
16 王威;;大数据时代背景下大学英语微课群建设研究[A];2020年南国博览学术研讨会论文集(一)[C];2020年
17 廖裕彬;;基于大数据的高三语文临界辅导策略分析[A];数字教材·数字化教学——第四届中小学数字化教学研讨会论文案例集[C];2019年
18 余雷;;大数据标准制定中数据治理的一点思考[A];2019贵州社会公共安全高端论坛优秀论文集[C];2019年
19 徐艳玲;崔玉伟;罗川;;新一代分布式飞行器管理系统技术研究进展[A];第37届中国控制会议论文集(F)[C];2018年
中国博士学位论文全文数据库 前14条
1 杨志勇;基于容错及检错的云存储可靠性技术研究[D];武汉理工大学;2015年
2 许方亮;云存储中基于纠删码的数据容错技术研究[D];国防科技大学;2019年
3 李春华;集群计算环境全局通讯优化的研究与实现[D];国防科学技术大学;2001年
4 李旭;基于非易失内存的高性能计算容错技术研究[D];国防科学技术大学;2013年
5 邹艳;信息截获与处理的容错技术研究[D];复旦大学;2006年
6 周峥;基于集群计算环境的核外计算中间件关键技术研究[D];武汉大学;2013年
7 黄达;基于忆阻器的自治容错技术研究[D];国防科学技术大学;2014年
8 孙伟东;分布式存储中基于纠删码的数据容错技术研究[D];国防科学技术大学;2015年
9 李建立;面向瞬时故障的可配置容错技术研究[D];国防科学技术大学;2013年
10 朱虎明;基于集群计算的免疫优化算法及其应用研究[D];西安电子科技大学;2010年
11 赵明宇;集群系统的调度算法研究[D];哈尔滨工业大学;2007年
12 赵天绪;集成电路缺陷分布模型和容错技术研究[D];西安电子科技大学;1999年
13 李海江;基于网络的工程设计与有限元分析系统的面向对象构建[D];大连理工大学;2003年
14 朱继祥;自适应演化硬件及其容错技术研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前20条
1 张新洲;面向分布式集群计算的容错技术研究与设计[D];华东师范大学;2015年
2 吴颖;一种基于LINUX的集群计算系统的设计与实现[D];四川大学;2005年
3 夏清;集群计算方法在流域水文过程模拟中的应用[D];清华大学;2007年
4 李江曼;电力云平台内存集群计算研究[D];华北电力大学;2016年
5 赵辉;基于H桥的五相电机容错控制算法研究[D];中国运载火箭技术研究院;2019年
6 薛晓良;SRAM型FPGA在辐照环境下的容错技术研究[D];中国科学院大学(中国科学院光电技术研究所);2019年
7 晏巍;支持容错的硬件密码算法的研究[D];湖南大学;2015年
8 李云华;面向变频调速的交—直—交变换器容错控制方法研究[D];华中科技大学;2017年
9 丁鹏;基于TMR-CUDA容错架构的星载GPU抗SEU技术研究[D];电子科技大学;2018年
10 魏梦雪;异构系统中实时任务的容错调度算法[D];武汉科技大学;2018年
11 朱文浩;星载GPU四余度容错算法设计与实现[D];电子科技大学;2018年
12 彭翔;分布式流处理的铁道供电监控大数据集群容错技术研究[D];华东交通大学;2018年
13 杨娜;融合容错需求和资源约束的云容错服务适配方法研究[D];内蒙古大学;2017年
14 沈璐;基于阵列码的Memcached高性能容错[D];南开大学;2017年
15 刘翠英;分布式系统后向恢复容错技术研究[D];山东大学;2011年
16 陈昀林;舰载分布式构件系统的容错技术研究[D];中国舰船研究院;2011年
17 张军永;容错技术在综合导航系统中的应用研究[D];哈尔滨工程大学;2013年
18 饶珊;分布式并行路由器负载均衡与容错技术的研究与实现[D];电子科技大学;2005年
19 姚成浪;基于MPI的集群计算系统设计与实现[D];哈尔滨工程大学;2007年
20 刘茵竺;面向星载计算机的检查点容错技术研究[D];上海交通大学;2011年
中国重要报纸全文数据库 前12条
1 朗飞;为集群计算系统选存储[N];中国计算机报;2006年
2 艾先;容错技术扫描[N];中国贸易报;2004年
3 ;容错技术的发展与应用展望[N];计算机世界;2001年
4 边月;容错技术带来的高可用[N];计算机世界;2003年
5 ;无时间损失的容错技术[N];中国计算机报;2003年
6 孔令男;容错技术高端商用领域的核心[N];中国国门时报;2004年
7 ;容错技术成为服务器市场的黑马[N];中国国门时报;2004年
8 特约撰稿人 夏雷鸣;P2P的未来之路[N];电脑报;2001年
9 记者刘雨;Stratus 加大中国行业市场拓展[N];中国计算机报;2003年
10 ;P2P可以做什么?[N];电脑报;2001年
11 本报记者 刘丽丽;浪潮 推新服务器 国产CPU市场化启程[N];计算机世界;2011年
12 主持人:山东省科技厅副厅长 崔建海;10000亿元大市场[N];科技日报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978