深度神经网络上的通信优化算法研究
【摘要】:深度神经网络成功应用于图像处理、机器翻译和语音识别等领域。面对日益增长的数据量,分布式训练深度神经网络模型是一个有效解决方案。但是在分布式训练中还存在若干问题。第一,在系统架构方面,目前主流架构是参数服务器架构,它没有根据深度神经网络不同层的特性对计算节点进行区分,造成通信开销过大。第二,在通信数据压缩方面,目前主流方法是梯度稀疏,该方法通信复杂度过高,并且稀疏后梯度值依然较大,增加了通信开销。针对当前深度神经网络在分布式训练下存在的不足,从系统架构和通信数据压缩两个方面,提出了Hourglass架构和Sparse Gradient Compression(稀疏梯度压缩算法),减少分布式训练深度神经网络的通信开销,加速训练过程,并保证精度损失在1%以内。在Hourglass中,将卷积(CONV)层和全连接(FC)层的计算分配给不同节点。集群中大多数节点用于计算CONV层,其余节点用于计算FC层。Hourglass能充分利用集群中各节点的计算能力,并且使FC层的参数和梯度在FC节点之间进行通信,而不是整个集群。Sparse Gradient Compression包括层次梯度稀疏、梯度量化和延时通信。这项技术具体包括:(1)层次梯度稀疏算法针对现有研究工作通信复杂度较高的问题,将通信复杂度降低到O(8)7)2)9))(n为计算节点数,m为每一字节大小消息所需传输时间)。(2)梯度量化算法将稀疏梯度量化为2-bit值。(3)延时通信算法使每个计算节点执行随机梯度下降算法的多次迭代来计算更多参数更新。实验结果显示,在CIFAR-10,ImageNet,PTB和LibriSpeech数据集上,分别进行了图像分类、语言模型和语音识别实验,证明了Hourglass架构和Sparse Gradient Compression的有效性。在多个数据集和深度神经网络模型下,相比于不同任务的当前最优结果,Hourglass架构和Sparse Gradient Compression在训练速度方面提升了约2至15倍,在通信数据压缩比方面提升了约2至8倍,同时保证精度损失在1%以内。