收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Spark的大规模分布式矩阵运算算法研究与实现

唐云  
【摘要】:近年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用数据呈爆炸性增长,全球进入到了一个全新的“大数据”时代,引起业界、学术界和各国政府的高度关注。大数据中往往隐含着很多在小数据量时不具备的深度知识和价值,因此大数据存储处理与分析应用成为近几年来的研究热点。机器学习和数据分析是将大数据转换成有用知识的关键技术。而在大数据机器学习处理时,大多数机器学习和数据分析算法都可以表示为矩阵或向量代数计算。因而在大数据机器学习算法中,矩阵运算的性能很大程度上决定了学习和分析算法整体的运行性能。以深度神经网络算法为例,大部分的计算量都花费在矩阵乘法上。而大数据场景下矩阵运算的另一个技术难题是,大规模矩阵运算无法基于单机在可接受的时间内完成,因此,有必要研究实现基于集群的大规模分布式矩阵运算方法和算法。为此,本文将研究基于大数据平台的大规模分布式矩阵运算方法和算法,以提高大规模矩阵运算的计算性能,最终为分布式学习系统提供基础矩阵算法库支撑。在实际的大数据处理场景中,通常包括稠密矩阵和稀疏矩阵两大类矩阵。为此,本文首先对大规模稠密矩阵相关运算进行研究。在分析了Hadoop和Spark等大数据平台上已有相关工作的基础上,提出了能更好地权衡矩阵运算并发度与shuffle数据读写开销的矩阵运算执行策略C-RMM (Concurrent Replication based Matrix Multiplication);并且根据底层Spark平台的相关特性,在算法实现环节,提出了以下三种优化措施,包括在MapMM (Map-side Matrix multiplicatic n)策略中更高效地利用本地原生库,提供更高效的分布式行-块矩阵转换,以及减少矩阵乘法join阶段的shuffle数据读写开销。此外,本文还进一步利用Spark的联合分区的特性,对矩阵间逐元素运算进行了相关性能优化。除了稠密矩阵外,现实世界大数据处理场景中,很多大规模矩阵具有很大的稀疏性,对这种稀疏矩阵,如果采用稠密矩阵运算方法进行处理,不仅会浪费较大的数据存储空间,而且运算性能也难以令人满意。为此,本文第二部分工作对大规模稀疏矩阵相关运算方法和算法进行了研究与实现。在区分了高度稀疏的矩阵乘法和中度稀疏的矩阵乘法各自特点和相关应用场景后,对于中度稀疏矩阵乘法问题,本文仍然采用分块切分的思想。为了优化分布式计算过程中单节点上的计算性能,本文比较了现有的基于JVM的单机矩阵运算库,参照已有工作中的相关设计思想,研究实现了一套高效的单机稀疏矩阵运算方法,从而在整体上提高了分布式运算的整体性能。在稠密和稀疏矩阵运算方法和算法研究与实现的基础上,本文进一步设计并构建了一个基于Spark的高效大规模分布式矩阵运算库——-Marlin,并在三种不同特征类型的矩阵乘法运算上,与Spark MLlib、SystemML和SciDB进行了相关运算操作的性能对比。实验结果表明,在大规模稠密矩阵乘法场景下,Marlin相比于Spark MLlib. SystemML和SciDB可以分别达到2-4倍的平均加速比;在设定常见稀疏度的大规模稀疏-稀疏矩阵乘法场景下,Marlin可以分别达到8-16倍的平均加速比;在大规模稠密-稀疏矩阵乘法场景下,Marlin可以分别达到3-5倍的平均加速比。最后,为了验证所研究实现算法的整体有效性,本文还利用矩阵相关运算算法分别实现了深度神经网络和非负矩阵分解两个真实的机器学习算法应用,并将Marli n与SystemML口SciDB进行了性能对比。实验结果表明,在深度神经网络的应用中,Marlin相比于其他系统可以达到5-29倍的加速比;在非负矩阵分解应用中,Marlin相比于其他系统可以达到约2-3倍的加速比。同时,Marlin系统还表现出了近乎线性的系统和数据可扩展性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;1998年第24期擂台赛点评[J];电脑爱好者;1999年06期
2 郝家駣;矩阵、概率与统计自学参考[J];煤矿机械;1985年03期
3 谭琼;如何形成网络流规划中的路矩阵[J];系统工程理论与实践;1992年04期
4 王以德,贾力普;快速算法及矩阵的新式分解[J];计算机应用与软件;1984年03期
5 黄禄炳,黄显高;矩阵应用中值得注意的问题[J];西安邮电学院学报;1997年01期
6 李大农;汉字邻接频率的矩阵表示[J];黄冈师专学报;1997年01期
7 杨秀文,严尚安,张洁,曾顺鹏;可达矩阵的新求法[J];电子科技大学学报;2000年06期
8 樊葆华;窦强;张鹤颖;;网络演算的矩阵解释[J];计算机学报;2009年12期
9 冯春生;;2维空间填充曲线的块矩阵迭代法[J];计算机工程与应用;2011年12期
10 孟章荣;几个图矩阵及其应用[J];系统工程与电子技术;1981年01期
11 马兰兰;徐若冰;李雪莲;;科技期刊中矩阵写法的常见错误[J];学报编辑论丛;2013年00期
12 邬淑玉;;论矩阵光学中的ABCD矩阵及其应用[J];江汉大学学报;1992年03期
13 王学福,孙家广,秦开怀;NURBS的符号矩阵表示及其应用[J];计算机学报;1993年01期
14 MOTOHARU UENO;龚国生;;应用FFT算法的巴特勒矩阵的系统设计公式[J];国外舰船技术.雷达与对抗;1982年07期
15 李沛武,卢正鼎,胡和平;基于矩阵的NTree中角色直接关系的判定[J];计算机工程与科学;2002年05期
16 张伟丰;杨丽华;;基于矩阵的多段支持度关联规则挖掘算法[J];湖北汽车工业学院学报;2014年02期
17 温鸿航;任晓莉;温鸿翔;;渡河问题的矩阵表示与迭代算法[J];电子科技;2012年10期
18 蒋定德;胡光岷;;基于广义回归神经网络的流量矩阵估计[J];计算机应用研究;2009年07期
19 戴南,朱玉龙;赛马矩阵问题及其解法[J];小型微型计算机系统;2002年11期
20 秦开怀;NURBS曲线和曲面的递推矩阵及其应用[J];计算机学报;1996年12期
中国重要会议论文全文数据库 前2条
1 杨伟;;模糊软矩阵及其格结构[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
2 陈文康;姚陈;;对Bond变换的若干思考[A];中国地球物理·2009[C];2009年
中国博士学位论文全文数据库 前7条
1 郝晓丽;粒度格矩阵空间模型及其应用研究[D];太原理工大学;2009年
2 韩曦;基于多维矩阵的移动通信信号检测及参数估计技术研究[D];北京邮电大学;2013年
3 张芬;基于低秩矩阵填充的相位检索方法研究[D];安徽大学;2015年
4 方茂中;关于矩阵填充和非负矩阵的研究[D];华东师范大学;2008年
5 陈娜;矩阵恢复算法及误差分析[D];华中科技大学;2012年
6 耿娟;低秩矩阵与张量完整化问题的算法研究[D];中国农业大学;2014年
7 田贵贤;图谱理论和几类矩阵的谱与组合特征研究[D];电子科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 崔翔;基于卷积压缩感知的确定性测量矩阵研究[D];北京化工大学;2015年
2 吴曼;SDN在IP网络的流量调度应用研究[D];电子科技大学;2015年
3 王浩;带噪声抑制的流量矩阵估计方法研究[D];电子科技大学;2015年
4 张婷婷;基于低秩矩阵填充与恢复的图像去噪方法研究[D];河北工业大学;2015年
5 邓爱淘;基于LDPC码的压缩感知测量矩阵研究[D];湘潭大学;2015年
6 白平;基于拓展全息矩阵的变胞机构创新设计研究[D];武汉轻工大学;2015年
7 吴越;Vandermonde矩阵的理论与应用研究[D];安徽大学;2016年
8 曹萌;几类Bezout矩阵的研究[D];安徽大学;2016年
9 唐云;基于Spark的大规模分布式矩阵运算算法研究与实现[D];南京大学;2016年
10 李娜;关于矩阵值Toeplitz-Bezout矩阵性质的研究[D];合肥工业大学;2010年
中国重要报纸全文数据库 前1条
1 金彧;IT自考学习资源大搜索(一)[N];中国电脑教育报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978