收藏本站
《重庆大学》 2016年
收藏 | 手机打开
二维码
手机客户端打开本文

分布式数据处理系统中作业性能优化关键技术研究

刘俊  
【摘要】:随着各行业中数据规模地增长,分布式数据处理技术被广泛应用于各行业数据分析中。Map Reduce具有使用方便、易于编程、容错性强和高性价比等优势,目前已经成为主流的分布式处理模型,并在各行业的大规模数据分析中得到了广泛的应用。然而随着数据处理需求的不断增长,MapReduce自身存在的一些缺陷也逐渐显露,最常见的缺陷包括:MapReduce中较多的配置参数、不完善的任务调度策略、数据本地化有效性低和资源槽分配不合理等。这些不足导致MapReduce作业执行效率低下。MapReduce作业性能调优是通过优化MapReduce中各方面的不足来改善MapReduce作业性能,使得作业在MapReduce中的执行时间大大降低,因此,MapReduce作业性能优化的研究具有重要的科学意义和应用价值。本文针对MapReduce作业性能优化的若干关键问题进行研究。在总结作业性能优化相关研究成果的基础上,建立了I/O代价函数来阐述配置参数对作业执行时间的重要性;提出了通过特征选择的方法来选择影响作业执行时间的重要参数,同时通过优化数据本地化、数据副本置放策略和任务调度的方法来改善作业执行时间。本文的研究内容和创新点具体包含以下几个方面:(1)通过建立I/O读写字节数和I/O请求数目函数证明了存在部分配置参数会直接影响MapReduce作业的执行时间。并验证了各配置参数对MapReduce作业执行时间的影响程度不同。(2)提出了基于核函数惩罚的聚类特征选择算法(IK-means),解决了MapReduce中因配置参数过多而使得平台管理人员配置困难的问题。在IK-means中,为了准确地判断各特征参数的影响程度,采用各向异性高斯核函数代替了传统的高斯核函数,通过各向异性高斯核函数不同方向的参数(也被称为核宽)来反映每个特征的重要程度。提出利用梯度下降算法来最小化各向异性高斯核的核宽向量,使得所选择的特征进行聚类的效果能最接近原始特征的聚类效果,从而达到特征选择的目的。针对聚类特征选择算法对初始点选择敏感的问题,提出了全局感知的局部密度初始点选择算法。通过理论证明和实验结果表明,本文提出的特征选择算法在配置参数的选择中具有良好的效果。(3)提出了基于二部图最小权匹配的数据本地化算法,解决了MapReduce中同时满足多任务数据本地化的问题,同时提出了动态副本自适应算法,通过热数据的识别解决了动态副本置放技术中的如何确定备份副本的问题。理论论证和实验结果表明动态自适应副本算法有效地支撑了二部图最小权匹配算法,并改善了多任务数据本地化的有效性。(4)提出了满足用户时间需求和资源优化的任务调度算法,利用历史作业描述文件中的时间和资源消耗信息对新作业执行时间和槽资源的消耗进行计算,不仅达到了满足用户时间需求的目的,还解决了MapReduce作业运行过程中资源消耗过高的问题。算法的有效性不仅从作业执行过程的理论分析得到了验证,且实验结果也验证了该算法的在作业执行时间和槽资源消耗的优势1。
【关键词】:MapReduce 核方法 聚类 任务调度 副本置放
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
  • 中文摘要3-5
  • 英文摘要5-9
  • 1 绪论9-21
  • 1.1 研究背景和意义9-11
  • 1.2 国内外研究现状11-17
  • 1.3 本论文的主要贡献17-20
  • 1.4 论文的组织结构20-21
  • 2 MapReduce中配置参数的重要性分析21-41
  • 2.1 MapReduce介绍21-22
  • 2.2 Hadoop生态系统22-24
  • 2.3 Hadoop计算平台架构24-26
  • 2.4 分布式文件存储HDFS26-27
  • 2.5 MapReduce配置参数分析27-39
  • 2.5.1 配置参数对MapReduce作业性能影响分析27-30
  • 2.5.2 MapReduce中I/O代价函数的建立30-39
  • 2.6 本章小结39-41
  • 3 基于核函数惩罚的聚类特征选择41-85
  • 3.1 引言41-42
  • 3.2 数据降维42-47
  • 3.3 特征选择和特征提取研究现状47-49
  • 3.4 聚类49-53
  • 3.4.1 聚类算法中的相似度度量49-50
  • 3.4.2 K-means算法介绍与分析50-53
  • 3.5 核K-means(kernel K-means)聚类53-56
  • 3.6 聚类初始中心点的改进56-62
  • 3.7 基于核函数惩罚的聚类特征选择62-68
  • 3.8 实验及分析68-84
  • 3.8.1 聚类初始中心点改进实验结果与分析68-69
  • 3.8.2 特征选择实验结果及分析69-84
  • 3.9 本章小结84-85
  • 4 MapReduce数据本地化优化研究85-109
  • 4.1 引言85-87
  • 4.2 数据本地化(Data Locality)87-89
  • 4.3 副本置放89
  • 4.4 数据本地化优化算法89-99
  • 4.4.1 基于二部图最小权匹配的数据本地化优化算法89-93
  • 4.4.2 动态自适应副本置放算法93-99
  • 4.5 实验及分析99-107
  • 4.5.1 实验环境及实验用例100-102
  • 4.5.2 实验结果及分析102-107
  • 4.6 本章小结107-109
  • 5 MapReduce任务调度优化研究109-137
  • 5.1 引言109-110
  • 5.2 Hadoop任务调度流程110-111
  • 5.3 Hadoop平台中现有的调度策略分析111-115
  • 5.4 任务调度中作业执行时间的不确定性115-118
  • 5.5 满足作业时间需求和资源优化的任务调度算法118-128
  • 5.5.1 作业描述文件的建立119-120
  • 5.5.2 作业完成时间的计算120-122
  • 5.5.3 作业所需slot的计算122-124
  • 5.5.4 满足作业时间需求和资源优化的任务调度算法124-128
  • 5.6 实验及分析128-136
  • 5.7 本章小节136-137
  • 6 总结与展望137-139
  • 6.1 研究总结137-138
  • 6.2 未来展望138-139
  • 致谢139-141
  • 参考文献141-153
  • 附录153-154
  • A. 作者在攻读学位期间发表的论文目录153-154
  • B. 作者在攻读学位期间参加的科研项目154

中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026