收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

深度神经网络上的通信优化算法研究

张振  
【摘要】:深度神经网络成功应用于图像处理、机器翻译和语音识别等领域。面对日益增长的数据量,分布式训练深度神经网络模型是一个有效解决方案。但是在分布式训练中还存在若干问题。第一,在系统架构方面,目前主流架构是参数服务器架构,它没有根据深度神经网络不同层的特性对计算节点进行区分,造成通信开销过大。第二,在通信数据压缩方面,目前主流方法是梯度稀疏,该方法通信复杂度过高,并且稀疏后梯度值依然较大,增加了通信开销。针对当前深度神经网络在分布式训练下存在的不足,从系统架构和通信数据压缩两个方面,提出了Hourglass架构和Sparse Gradient Compression(稀疏梯度压缩算法),减少分布式训练深度神经网络的通信开销,加速训练过程,并保证精度损失在1%以内。在Hourglass中,将卷积(CONV)层和全连接(FC)层的计算分配给不同节点。集群中大多数节点用于计算CONV层,其余节点用于计算FC层。Hourglass能充分利用集群中各节点的计算能力,并且使FC层的参数和梯度在FC节点之间进行通信,而不是整个集群。Sparse Gradient Compression包括层次梯度稀疏、梯度量化和延时通信。这项技术具体包括:(1)层次梯度稀疏算法针对现有研究工作通信复杂度较高的问题,将通信复杂度降低到O(8)7)2)9))(n为计算节点数,m为每一字节大小消息所需传输时间)。(2)梯度量化算法将稀疏梯度量化为2-bit值。(3)延时通信算法使每个计算节点执行随机梯度下降算法的多次迭代来计算更多参数更新。实验结果显示,在CIFAR-10,ImageNet,PTB和LibriSpeech数据集上,分别进行了图像分类、语言模型和语音识别实验,证明了Hourglass架构和Sparse Gradient Compression的有效性。在多个数据集和深度神经网络模型下,相比于不同任务的当前最优结果,Hourglass架构和Sparse Gradient Compression在训练速度方面提升了约2至15倍,在通信数据压缩比方面提升了约2至8倍,同时保证精度损失在1%以内。


知网文化
【相似文献】
中国期刊全文数据库 前16条
1 胡悦;;金融市场中的神经网络拐点预测法[J];金融经济;2017年18期
2 迟惠生;陈珂;;1995年世界神经网络大会述评[J];国际学术动态;1996年01期
3 王方;苗放;陈垦;;基于优化神经网络的地质灾害监测预警仿真[J];计算机仿真;2019年11期
4 马猛;王明红;;基于进化神经网络的304不锈钢车削加工表面粗糙度预测[J];轻工机械;2019年06期
5 庄连生;吕扬;杨健;李厚强;;时频联合长时循环神经网络[J];计算机研究与发展;2019年12期
6 吴立可;;脉冲神经网络和行为识别[J];通讯世界;2018年12期
7 林嘉应;郑柏伦;刘捷;;基于卷积神经网络的船舶分类模型[J];信息技术与信息化;2019年02期
8 俞颂华;;卷积神经网络的发展与应用综述[J];信息通信;2019年02期
9 韩真;凯文·哈特尼特;;为神经网络的通用理论建造基石[J];世界科学;2019年04期
10 鲍伟强;陈娟;熊涛;;基于进化神经网络的短期电力负荷预测研究[J];电工技术;2019年11期
11 陈晓燕;;浅析简单神经网络的发展及简单模型[J];数字技术与应用;2019年05期
12 李青华;李翠平;张静;陈红;王绍卿;;深度神经网络压缩综述[J];计算机科学;2019年09期
13 刘高宇;;深度神经网络在煤质数据分析与预测中的应用[J];电脑知识与技术;2019年28期
14 黄为;李永刚;胡上成;汪毅;;基于循环神经网络的船摇数据实时预测[J];科学技术与工程;2019年31期
15 冯伟业;廖可非;欧阳缮;牛耀;;基于胶囊神经网络的合成孔径雷达图像分类方法[J];科学技术与工程;2019年28期
16 郑丽;;建筑设计中神经网络技术与遗传算法探究[J];湖北农机化;2019年21期
中国重要会议论文全文数据库 前10条
1 孙军田;张喆;;基于神经网络数据挖掘技术确定灾害等级的灭火救援出动力量模型研究[A];2016中国消防协会科学技术年会论文集[C];2016年
2 许进;保铮;;神经网络与图论[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
3 唐墨;王科俊;;自发展神经网络的混沌特性研究[A];2009年中国智能自动化会议论文集(第七分册)[南京理工大学学报(增刊)][C];2009年
4 张广远;万强;曹海源;田方涛;;基于遗传算法优化神经网络的故障诊断方法研究[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
5 李涛;费树岷;;具有变时滞Cohen-Grossberg神经网络的指数稳定性准则[A];第二十六届中国控制会议论文集[C];2007年
6 汪灵枝;秦发金;;具有变时滞和脉冲的离散Cohen-Grossberg神经网络的周期解[A];中国自动化学会控制理论专业委员会D卷[C];2011年
7 韩正之;林家骏;;用神经网络求解非线性相容方程[A];1993年控制理论及其应用年会论文集[C];1993年
8 林家骏;王赞基;;求解不可微优化问题的连续极大熵神经网络[A];1998年中国智能自动化学术会议论文集(上册)[C];1998年
9 姜德宏;徐德民;任章;;基于神经网络的自校正控制器[A];1993中国控制与决策学术年会论文集[C];1993年
10 窦永丰;贝超;;模糊与神经网络结合方式及在控制中的应用[A];1997年中国控制会议论文集[C];1997年
中国博士学位论文全文数据库 前10条
1 武晨;DFP航天器动力学特性分析及精确控制方法研究[D];哈尔滨工业大学;2018年
2 冉令燕;基于卷积神经网络的图像分类研究[D];西北工业大学;2018年
3 于佳;语音文档的故事分割技术研究[D];西北工业大学;2018年
4 毛瑞琛;深度神经网络下的规范化地址建设与语义空间模型研究[D];浙江大学;2019年
5 杨旭辉;基于神经网络的C-ADS InjectorⅡ束流偏移校准技术研究[D];兰州大学;2019年
6 樊英杰;时滞忆阻神经网络的镇定及同步控制研究[D];山东科技大学;2019年
7 洪庆辉;忆阻神经网络的全电路设计及其应用[D];华中科技大学;2019年
8 田树耀;基于多尺度变分算法及深度卷积神经网络的图像压缩感知重建[D];燕山大学;2019年
9 孙诗昭;深度学习中深度问题与大模型问题的研究[D];南开大学;2018年
10 肖理业;基于机器学习的电磁场建模与设计研究[D];电子科技大学;2019年
中国硕士学位论文全文数据库 前10条
1 焦东岩;卷积神经网络在密度泛函结构预测计算中的应用研究[D];湘潭大学;2019年
2 李智强;基于神经网络的航空发动机推力估计方法研究[D];南京航空航天大学;2019年
3 刘京麦野;基于循环神经网络的语义完整性分析[D];湘潭大学;2019年
4 朱萌钢;基于神经网络的车辆行为预测研究[D];重庆邮电大学;2019年
5 米怡;基于卷积神经网络的车行环境行人识别[D];重庆邮电大学;2019年
6 易亿;基于集成卷积神经网络的交通标志识别研究[D];重庆邮电大学;2019年
7 葛超;基于神经网络的奶牛识别方法研究[D];重庆邮电大学;2019年
8 李净桦;基于神经网络的社交话题热度预测模型研究[D];重庆邮电大学;2019年
9 弓攀豪;融合浅层特征与卷积神经网络的行人检测方法研究[D];重庆邮电大学;2019年
10 詹紫微;基于卷积神经网络的目标跟踪方法研究[D];重庆邮电大学;2019年
中国重要报纸全文数据库 前10条
1 张允硕 姜正义 甄海锋 河南理工大学;基于神经网络的自适应PID控制的智能衣架[N];科学导报;2019年
2 湖北日报全媒记者 张爱虎 通讯员 徐向军 实习生 于蓝;一群“90后”率先建成铁路“神经网络”[N];湖北日报;2019年
3 记者 刘霞;忆阻器制成神经网络更高效[N];科技日报;2017年
4 整理 本报记者 诸玲珍 顾鸿儒;微软神经网络切割法可使加速作用超线性[N];中国电子报;2018年
5 ;神经网络小史[N];电子报;2018年
6 张敏;人机大战,到底谁会赢?[N];北京日报;2017年
7 ;人工智能将取得大面积突破[N];中国企业报;2017年
8 本报记者 龚丹韵;人机大战:人类还有优势吗[N];解放日报;2017年
9 ;人类正迎来云端机器人时代[N];中国企业报;2017年
10 张斌;谁还需要“同传”[N];文汇报;2017年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978