收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向大规模交互式分析的MapReduce优化技术研究

赵辉  
【摘要】:近年来,数据呈指数级增长趋势使得大数据问题受到广泛关注。与传统的海量数据相比,大数据更强调数据的潜在价值,需要强有力的分析挖掘技术才能有效获取这种价值。大数据分析挖掘对大规模并行数据处理技术提出了高性能、高可扩展、高可靠等要求。Map Reduce支持大规模自动化并行、高度自动化扩展、细粒度透明容错,非常适合大数据分析挖掘。目前,Map Reduce技术已经成为大数据分析挖掘的核心技术。Map Reduce应用大量出现,很多机构都在使用Map Reduce来解决他们的应用需求,例如:卫星图像数据清洗、生成倒排索引、用户点击流分析等。然而,Map Reduce最初用于大规模批处理领域,最近才开始转向大规模交互式应用领域。与批处理应用相比,交互式应用有很多不同,这使得最初的Map Reduce系统不能很好地适应。对于交互式应用优化,传统数据库研究领域已积累了大量成熟技术,但数据库的扩展性和可靠性受限。本文的研究动机是利用传统数据管理技术扩展Map Reduce技术,使之更加适合交互式应用需求。本文从Map Reduce框架的执行流程入手,分析了每个执行阶段的优化机会,结合交互式应用的特点,做出了四个方面的优化研究工作,将其总结如下。(1)基于全局索引的Map Reduce作业调度执行优化。优化对象是大规模交互式分析挖掘应用中一类常见的作业类型-条件类作业。原始Map Reduce系统没有针对条件类作业的语义特点进行优化。在已有研究工作基础上,提出了一种基于全局索引的作业调度执行优化策略。优化目标是作业的执行开销和调度开销。前提假设是数据分区全局有序,有针对数据分区的全局索引知识。方法是在Map Reduce处理流程中增加条件分析阶段,并基于全局索引减少需要调度执行的任务规模。实验结果表明我们的策略对条件类作业具有更好的调度开销和执行开销。(2)关注数据本地性的公平任务调度算法。在大规模普通网络集群环境进行数据密集型计算,网络带宽是最稀缺的系统资源。使任务靠近数据执行是非常重要的性能优化原则,该原则在Map Reduce环境下被称为数据本地性原则。数据本地性直接影响着计算效率。交互式计算平台由大量用户共享,需要公平共享资源。在交互式环境下绝对公平对数据本地性影响较大。为此,本文提出一种灵活的公平调度策略,称为K%-公平调度。首先考虑数据本地性,进而考虑公平性。通过调整参数K,可使数据本地性和公平性都得到较好的优化。(3)关注数据本地性的任务调度框架。任务调度阶段,数据本地性是必须要考虑的指标。此外,可能还需要考虑其他因素(如作业长度、作业类型、数据共享、等待时间等)。因此,有必要设计一个关注综合指标的任务调度框架。该框架优先考虑数据本地性,基于数据本地性对任务执行位置进行规划。任务调度阶段若有多个候选任务,基于综合指标函数对候选任务排序,调度最靠前的任务。(4)关注集群计算效率的作业调度算法。作业调度算法规定了所有提交作业的执行顺序。研究主要针对大量突发性负载模式。这种负载模式下,影响机群计算效率的因素主要包括三个方面:数据本地性、负载均衡性、资源使用的流水并行性。若没有作业调度,使全部作业都可获得资源,数据本地性和负载均衡性很容易保证。这将导致大量作业恶意争用共享资源,影响不同类型资源之间的流水并行性。作业调度控制了作业的并行度,进而控制了可调度的任务规模,这种情况下很难同时保证数据本地性和负载均衡性。针对这种情况,本文首先限制任务调度遵循严格数据本地性原则。进而,以负载均衡性为标准优化作业选择算法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 于艾清;顾幸生;;基于粗糙规划的不确定加工时间的并行机调度[J];控制与决策;2008年12期
2 张博;汪斌强;王珊珊;卫红权;李挥;;基于Crossbar的可重构网络输入排队分域调度研究[J];通信学报;2012年09期
3 张书亭,杨建军,邬学礼;基于代理的并行多机提前/脱期调度研究[J];机械科学与技术;2003年S2期
4 杨宏安,王荪馨,孙树栋,柴永生;一种求解Job_Shop调度的变量排序启发算法[J];计算机工程与应用;2004年13期
5 霍满臣;陈忠菊;唐立新;;2台并行机上的批在线调度[J];沈阳工程学院学报(自然科学版);2006年02期
6 李凯;杨善林;刘桂庆;;求解目标是最小完成时间和的同类机调度的改进算法[J];系统仿真学报;2007年11期
7 吴亚丽;钱富才;惠鏸;;间歇生产中过程调度的建模与分析[J];系统仿真学报;2008年05期
8 叶强;刘心报;程浩;;改进蚁群算法求解单机总加权延迟调度问题[J];系统仿真学报;2008年08期
9 陈宇;陈新;陈新度;;不确定环境下的多Agent鲁棒性预测调度研究[J];中国机械工程;2009年16期
10 霍满臣;唐立新;;基于到达时间两台并行机上在线批调度[J];控制与决策;2009年12期
11 左燕;薛安克;王建中;;单机调度问题对偶集结迭代算法[J];控制理论与应用;2010年12期
12 王民川;苑彬;;基于蚁群算法的泊位调度优化与仿真[J];计算机光盘软件与应用;2012年01期
13 谢谢;李彦平;;带有单服务器的并行机调度问题[J];沈阳大学学报(自然科学版);2012年04期
14 苏明,薛宏熙,洪先龙;调度问题的形式化描述[J];计算机辅助设计与图形学学报;1995年04期
15 朱景福,李欣,王馨;分支定界算法在调度问题上的应用[J];哈尔滨理工大学学报;1999年01期
16 武灵艳;邓子豪;吴俣;王昉健;徐金花;王加兵;刘雨田;刘文军;;基于APC和GPS数据的青奥会期间南京公共交通的调度与优化[J];数学理论与应用;2014年01期
17 钟求喜,谢涛,陈火旺;任务分配与调度的共同进化方法[J];计算机学报;2001年03期
18 张晓盼;齐欢;袁晓辉;;三峡葛洲坝联合通航调度的混合整数规划[J];武汉理工大学学报(交通科学与工程版);2007年01期
19 郭美娜;李波;;基于树搜索的一种动态空间调度方法[J];计算机工程与应用;2007年14期
20 张蕾;陈笑蓉;陈笑筑;;基于蚁群算法的多邮车调度问题研究[J];福建电脑;2008年08期
中国重要会议论文全文数据库 前10条
1 刘海龙;黄小原;;总的未完工费用最小的多机调度问题[A];1995中国控制与决策学术年会论文集[C];1995年
2 李建更;涂菶生;马海涛;;单机拖后时间总和问题交付期扰动时最优调度不变范围的一种求法[A];第十九届中国控制会议论文集(一)[C];2000年
3 沈吟东;曾西洋;;公共交通驾驶员调度的复杂性及解决方法[A];’2004计算机应用技术交流会议论文集[C];2004年
4 李兵;蒋慰孙;;Job shop问题的建模及调度[A];1996中国控制与决策学术年会论文集[C];1996年
5 王成尧;汪定伟;;模糊加工时间的单机调度问题[A];1996中国控制与决策学术年会论文集[C];1996年
6 齐向彤;涂奉生;;双交付期E/T调度问题[A];1997年中国控制会议论文集[C];1997年
7 王海星;申金升;;智能蚁群算法解决公交区域调度问题研究[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
8 吴斌;方叶祥;崔志勇;;基于人工蜂群算法的越库调度问题研究[A];第25届中国控制与决策会议论文集[C];2013年
9 方涛;吴受章;;FMS的自适应调度:结构与算法研究[A];1992年中国控制与决策学术年会论文集[C];1992年
10 刘兴初;赵千川;郑大钟;;具有不同准备时间和交付期的单机E/T调度问题研究[A];1998年中国控制会议论文集[C];1998年
中国博士学位论文全文数据库 前10条
1 左燕;大规模复杂生产调度问题瓶颈分解方法研究[D];上海交通大学;2007年
2 王磊;OKP企业分散式项目计划与调度优化方法研究[D];哈尔滨工业大学;2013年
3 李小林;平行机环境下批处理机调度问题研究[D];中国科学技术大学;2012年
4 李玉庆;动态不确定环境下航天器观测调度问题研究[D];哈尔滨工业大学;2008年
5 刘志雄;调度问题中的粒子群优化方法及其应用研究[D];武汉理工大学;2005年
6 金毅;模糊集合论在生产计划和调度中的应用研究[D];东南大学;1994年
7 汤健超;基于混合进化算法的若干调度问题研究[D];华南理工大学;2012年
8 江维;任务关键实时系统的可信感知调度研究[D];电子科技大学;2009年
9 宋洁蔚;油品生产与储运调度问题研究[D];浙江大学;2003年
10 邓冠龙;基于元启发式算法的调度问题若干研究[D];华东理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 郭丽萍;萤火虫算法在阻塞流水线调度问题中的应用研究[D];东北师范大学;2013年
2 嘉晓岚;航班着陆调度的智能优化方法研究[D];中国科学技术大学;2009年
3 杨新玲;基于时间D-子集任务排序与调度问题研究[D];沈阳大学;2010年
4 杨生磊;城市应急出警智能调度系统研究[D];郑州大学;2011年
5 高维龙;注塑企业复杂批调度问题算法与仿真研究[D];武汉科技大学;2013年
6 林垚君;考虑不确定性的复杂装备制造作业流程重调度研究及其应用[D];浙江大学;2014年
7 谭雅青;基于恢复的批处理生产重调度及优化[D];华南理工大学;2013年
8 刘贤斐;服务Agent的建模与规划调度系统[D];上海交通大学;2009年
9 潘鹏竹;协同制造调度问题的蚁群算法研究[D];沈阳工业大学;2010年
10 李兰云;协同制造调度问题及其蚁群算法研究[D];沈阳工业大学;2011年
中国重要报纸全文数据库 前3条
1 本报记者 贾科华;火电机组叫苦调度不合理[N];中国能源报;2012年
2 本报记者 高芳;牵住“牛鼻子” 巧解“推进难”[N];湖南经济报;2008年
3 黄河水利委员会;流域水量统一调度的实践与认识[N];中国水利报;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978