收藏本站
《重庆大学》 2016年
收藏 | 手机打开
二维码
手机客户端打开本文

分布式数据处理系统中作业性能优化关键技术研究

刘俊  
【摘要】:随着各行业中数据规模地增长,分布式数据处理技术被广泛应用于各行业数据分析中。Map Reduce具有使用方便、易于编程、容错性强和高性价比等优势,目前已经成为主流的分布式处理模型,并在各行业的大规模数据分析中得到了广泛的应用。然而随着数据处理需求的不断增长,MapReduce自身存在的一些缺陷也逐渐显露,最常见的缺陷包括:MapReduce中较多的配置参数、不完善的任务调度策略、数据本地化有效性低和资源槽分配不合理等。这些不足导致MapReduce作业执行效率低下。MapReduce作业性能调优是通过优化MapReduce中各方面的不足来改善MapReduce作业性能,使得作业在MapReduce中的执行时间大大降低,因此,MapReduce作业性能优化的研究具有重要的科学意义和应用价值。本文针对MapReduce作业性能优化的若干关键问题进行研究。在总结作业性能优化相关研究成果的基础上,建立了I/O代价函数来阐述配置参数对作业执行时间的重要性;提出了通过特征选择的方法来选择影响作业执行时间的重要参数,同时通过优化数据本地化、数据副本置放策略和任务调度的方法来改善作业执行时间。本文的研究内容和创新点具体包含以下几个方面:(1)通过建立I/O读写字节数和I/O请求数目函数证明了存在部分配置参数会直接影响MapReduce作业的执行时间。并验证了各配置参数对MapReduce作业执行时间的影响程度不同。(2)提出了基于核函数惩罚的聚类特征选择算法(IK-means),解决了MapReduce中因配置参数过多而使得平台管理人员配置困难的问题。在IK-means中,为了准确地判断各特征参数的影响程度,采用各向异性高斯核函数代替了传统的高斯核函数,通过各向异性高斯核函数不同方向的参数(也被称为核宽)来反映每个特征的重要程度。提出利用梯度下降算法来最小化各向异性高斯核的核宽向量,使得所选择的特征进行聚类的效果能最接近原始特征的聚类效果,从而达到特征选择的目的。针对聚类特征选择算法对初始点选择敏感的问题,提出了全局感知的局部密度初始点选择算法。通过理论证明和实验结果表明,本文提出的特征选择算法在配置参数的选择中具有良好的效果。(3)提出了基于二部图最小权匹配的数据本地化算法,解决了MapReduce中同时满足多任务数据本地化的问题,同时提出了动态副本自适应算法,通过热数据的识别解决了动态副本置放技术中的如何确定备份副本的问题。理论论证和实验结果表明动态自适应副本算法有效地支撑了二部图最小权匹配算法,并改善了多任务数据本地化的有效性。(4)提出了满足用户时间需求和资源优化的任务调度算法,利用历史作业描述文件中的时间和资源消耗信息对新作业执行时间和槽资源的消耗进行计算,不仅达到了满足用户时间需求的目的,还解决了MapReduce作业运行过程中资源消耗过高的问题。算法的有效性不仅从作业执行过程的理论分析得到了验证,且实验结果也验证了该算法的在作业执行时间和槽资源消耗的优势1。
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP311.13

中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026