收藏本站
《电子科技大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

一种基于Storm的分布式实时增量计算框架的研究与实现

李劲松  
【摘要】:互联网的普及、智能手机的广泛使用,给海量数据分析处理技术带来了新的挑战。传统的单机处理方法需要几天甚至几月的时间来处理海量数据,而分布式计算通过把复杂计算任务的子集分配给多台计算机协作完成,从而提高了计算效率。在批处理场景中广泛应用的是Hadoop平台的MapReduce框架。MapReduce应用广泛的原因之一在于它的易用性,它提供了一个因高度抽象化而变得异常简单的编程模型。Hadoop的设计理念主要针对大批量数据处理场景,它在处理大规模数据集时具有良好的吞吐量,但是不适合实时性要求较高的场景。任务的启动和磁盘读写花费了较多的时间,导致Hadoop的计算需要秒级的延迟。在实时处理场景中Twitter公司开发的Storm框架表现不错,Storm是个实时的、分布式以及具备高容错的计算系统。正在发展的Storm Trident对Storm进行了批处理的封装,但是Storm Trident的编程模型较复杂,不易使用,中间数据的传递存在内存溢出的风险,Trident不能对状态进行Checkpoint方式的容错,而且状态存在分布式不一致的风险。本文研究了分布式并行处理技术,提出了一种基于Storm的分布式增量计算框架,具有编程模型简单、计算时延小、高效容错等优点。主要工作如下:(1)抽象Storm较底层的原语,提出并设计了一种基于Storm的MapReduceMerge增量计算模型。开发者可以轻易的从MapReduce模型过渡到MapReduceMerge模型。(2)设计Map到Reduce批计算模式的数据传递,并处理Reduce的数据溢出。使用Push和自主协调的方式来改善中间数据传递的实时性。采用散列因子来均衡各批次的任务分配,从而提高在数据倾斜情况下的系统吞吐量。(3)采用Checkpoint的容错机制来降低Merge状态容错对计算性能的影响。使用间隔批次的检查点方案,以出错后恢复时间的增加来换取正常计算性能的提升。使用异步的数据存储能在计算资源充足时不干扰正常计算,使用数据的多版本来保证分布式环境的一致性。(4)使用内存Snapshot来保证Merge状态计算的偏序和幂等,并能避免数据的反复计算,从而降低计算失败时的重做花费时间。设计主节点与计算节点的协作来保证Checkpoint的全序。为了验证本文框架的实时和易用等优点,搭建了分布式计算环境,编写了实例,选择并构建MapReduce和Storm进行对比。测试结果证明,本文所提出的框架提高了分布式增量计算的实时性,并且能在不牺牲性能的情况下完成增量结果的容错。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13

手机知网App
【参考文献】
中国重要报纸全文数据库 前1条
1 常冠林;;“二八定律”在数据库建设中的运用[N];中国邮政报;2011年
【相似文献】
中国期刊全文数据库 前2条
1 路志英;杨乐;李艳英;赵智超;;Sand-Dust Storm Ensemble Forecast Model Based on Rough Set[J];Transactions of Tianjin University;2007年06期
2 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 ;Modeling investigation of ionospheric storm effects over Millstone Hill during August 4-5,1992[A];中国科学院地质与地球物理研究所二○○四学术论文汇编·第四卷(新生代·地磁与空间电磁·工程地质与应用地球物理)[C];2004年
2 ;Evolution of a positive ionospheric storm observed by GPS network and incoherent scatter radar[A];第十二届全国日地空间物理学术讨论会论文摘要集[C];2007年
3 X.D.Zhao;A.M.Du;W.Y.Xu;;The magnetic local time distribution of ring current during the geomagnetic storm[A];中国科学院地质与地球物理研究所2013年度(第13届)学术论文汇编——地磁与空间物理研究室[C];2014年
4 ;Modeling the behavior of ionosphere above Millstone Hill during the September 21-27,1998 storm[A];中国科学院地质与地球物理研究所二○○四学术论文汇编·第四卷(新生代·地磁与空间电磁·工程地质与应用地球物理)[C];2004年
5 ;Ground magnetic characteristics of the storm-time ring current Asymmetry[A];中国科学院地质与地球物理研究所2008学术论文汇编[C];2009年
6 Ali Mamtimin;;Sand flux estimation during a sand-dust storm at Tazhong area of Taklimakan Desert,China[A];第28届中国气象学会年会——S14气候环境变化与人体健康[C];2011年
7 ;Real time numerical modeling system of dust storm in north China and its validations[A];大气气溶胶科学技术研究进展——第八届全国气溶胶会议暨第二届海峡两岸气溶胶科技研讨会文集[C];2005年
8 Yun Gong;Qihou Zhou;Shaodong Zhang;Nestor Aponte;Michael Sulzer;Sixto Gonzalez;;The F-region and topside ionosphere response to a strong geomagnetic storm at Arecibo[A];中国空间科学学会空间物理学专业委员会第十五届全国日地空间物理学研讨会摘要集[C];2013年
9 B.Zhao;W.Wan;J.Lei;Y.Wei;Y.Sahai;B.Reinisch;;Positive ionospheric storm effects at Latin America longitude during the superstorm of 20-22 November 2003:revisit[A];中国科学院地质与地球物理研究所2012年度(第12届)学术论文汇编——地磁与空间物理研究室[C];2013年
10 丁锋;;Large-scale traveling ionospheric disturbances observed by GPS total electron content during the magnetic storm of 29-30 October 2003[A];中国科学院地质与地球物理研究所2007学术论文汇编(第一卷)[C];2008年
中国硕士学位论文全文数据库 前3条
1 张慧;基于storm新闻推荐系统的研究与实现[D];华南理工大学;2015年
2 李劲松;一种基于Storm的分布式实时增量计算框架的研究与实现[D];电子科技大学;2015年
3 黄馥浩;基于Storm的微博互动平台的设计与实现[D];中山大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026