收藏本站
收藏 | 论文排版

面向GPGPU体系结构的软错误弹性分析与容错策略研究

岳恒山  
【摘要】:近年来,通用图形处理器(General-Purpose graphics Processing Units,GPGPU)因其高并行性以及不断改进的可编程性,被广泛应用于高性能计算(High-Performance Computing,HPC)中心以提供大规模并行数据处理能力。不同于传统GPU主要用于图形计算,GPGPU被广泛应用于科学计算、机器学习、数据挖掘等通用HPC程序。因此,确保其在软错误影响下的可靠性变得尤为关键。为实现GPGPU可靠性和性能、能耗的协同优化,本文从优化容错技术能效角度出发展开系统性研究,研究内容涵盖软错误弹性分析方法、预测模型以及容错策略。软错误弹性分析旨在表征GPGPU程序对软错误的容忍程度,并支持有效划分和甄别GPGPU计算系统的错误弹性区域,进而为研制不同粒度的高能效容错策略提供依据;为加速传统软错误弹性分析过程,软错误预测模型旨在挖掘错误弹性启发式特征并驱动机器学习模型来拟合启发式特征与GPGPU程序错误弹性间的相关关系,进而支持快速、高效预测GPGPU程序的软错误敏感度;依据软错误弹性分析方法及预测模型的相关结论,软错误容错策略旨在通过冗余执行、错误校验码等机制来提升GPGPU计算系统的可靠性。具体研究内容如下:1.软错误弹性分析方法:考虑到一些GPGPU程序本身对于不精确的计算结果具有一定容忍度,受近似计算思想启发,本文提出了基于软错误感知的GPGPU程序近似分析框架(G-SEAP)来表征由软错误引发的错误结果的近似特性。与传统分析方法认为所有由软错误引起的静默数据损坏(Silent Data Corruptions,SDCs)都无法容忍不同,G-SEAP通过松弛程序SDCs错误误差约束来引导研究人员避免对GPGPU程序错误弹性区域的过度保护。利用G-SEAP分析框架,本文对17个代表性HPC基准程序进行了多维度的详尽分析,观察到平均72.7%的SDCs是可近似接受的。此外,通过不同维度的分析,本文发现应用程序数据流、kernel函数可靠性需求、指令类型和数据高低位都是影响GPGPU程序可靠性的重要因素。2.软错误预测模型:为解决传统故障注入(Fault Injection,FI)错误弹性分析方法开销过大的问题,本文构建了面向GPGPU程序的软错误预测模型(G-SEPM),能够替代FI快速、准确地预测GPGPU程序的位级(bit-wise)错误弹性。G-SEPM的核心见解是发掘故障点(fault site)的指令类型、高低位、位翻转方向和错误传播信息具有表征其软错误弹性的能力。利用这些启发式特征,G-SEPM驱动机器学习模型揭示了故障点错误弹性与启发式特征间的隐含关系。实验结果表明,G-SEPM对GPGPU程序单故障点软错误弹性预测的平均准确率为93.92%;能够以95.39%的精度覆盖程序中95.99%的关键故障点;平均比FI分析快6557X。基于G-SEAP及G-SEPM的相关分析/预测结论,针对数据存储和指令执行过程的软错误威胁,本文设计了两种高能效软错误容错策略:1.高能效错误校验码(Error Correction Codes,ECCs)机制:为解决GPGPU寄存器文件中ECC机制能耗过高的问题,本文利用指令软错误敏感性差异、warp中同名寄存器的重复特性以及浮点数据低位的错误鲁棒性,结合GPGPU特有架构,设计了一种软硬件协同的高能效ECC机制(Eff-ECC)。Eff-ECC由指令敏感度感知ECC(IA-ECC)、复制感知ECC(DA-ECC)以及数据位敏感度感知ECC(BA-ECC)组成。考虑到指令的软错误敏感性差异,IA-ECC仅对软错误敏感指令的写寄存器触发ECC机制;观察到warp中同名寄存器经常保存相同的数据,DA-ECC通过ECC复用避免了冗余的ECC生成和校验过程;利用程序固有的误差容忍特性,BA-ECC仅保护浮点寄存器的重要位以对抗关键错误。实验结果表明,Eff-ECC能够将传统SEC-DED ECC能耗降低86.46%。同时,Eff-ECC的高能效也将为低功耗嵌入式GPGPU架构提供了可行的ECC设计方案。2.近似指令复制技术:为减轻指令执行过程中发生软错误的影响,本文提出了一种高能效的近似指令复制技术,通过松弛程序中错误非敏感指令集合的保护来提升指令复制技术能效。实验结果表明,近似指令复制技术通过仅冗余执行约33.70%的错误敏感指令,能够将程序SDC率从70.51%降低到5.19%,指令复制比较传统方法减少了49.86%。针对GPGPU中的软错误威胁,本文首先提出了面向GPGPU程序的错误弹性分析方法和预测模型,能够有效度量软错误对GPGPU的影响程度。基于错误弹性分析方法和预测模型的相关结论,本文进一步提出了高能效ECC机制及近似指令复制策略来提升数据存储和指令执行过程的软错误可靠性。面向GPGPU体系结构,本文旨在研究构建更为“错误高效”(error-efficient)的软错误容错技术和方法,避免软错误对计算系统的过度扰动,使系统在性能、能耗和可靠性等维度更佳平衡。


知网文化
【相似文献】
中国期刊全文数据库 前17条
1 马千里;秦畅;卞春华;;GPGPU技术及其在医学图像处理中的应用[J];现代计算机(专业版);2010年08期
2 王锋;杜云飞;陈娟;;GPGPU性能模型研究[J];计算机工程与科学;2013年12期
3 李波;赵怀慈;花海洋;杜梅;;基于集群和GPGPU技术的三维地形数据生成方法研究[J];微电子学与计算机;2014年10期
4 盛向治;单宝松;;基于GPGPU的多目的混音算法的研究与实现(英文)[J];北京大学学报(自然科学版);2008年01期
5 周林;韩文报;祝卫华;王政;;MDx差分攻击算法改进及GPGPU上的有效实现[J];计算机学报;2010年07期
6 王家华;刘琳;;油藏建模三维显示的交互式设计与研究——基于GPGPU技术[J];科技资讯;2008年02期
7 张鹏博;郭兵;黄义纯;曹亚波;;通用图形处理器GPGPU的并行计算研究[J];单片机与嵌入式系统应用;2017年08期
8 赵艳伟;于璐;张宁;刘凯;徐海旭;;一种基于GPGPU的指控系统空间查询优化方法[J];指挥与控制学报;2015年04期
9 刘子骏;何炎祥;张军;李清安;沈凡凡;;一种面向GPGPU的行为感知的存储调度策略[J];计算机工程与科学;2017年06期
10 黄宇翔;;通用图形处理器GPGPU在自动测试生成中的应用[J];集成电路应用;2020年05期
11 黎柏春;杨建宇;于天彪;王宛山;;基于GPGPU的实体表面实时提取[J];计算机工程与设计;2014年12期
12 张朝晖;於建生;薛钰娟;徐勤建;;基于GPGPU的准实时测频技术[J];雷达科学与技术;2011年02期
13 张军;何炎祥;沈凡凡;江南;李清安;;基于2阶段同步的GPGPU线程块压缩调度方法[J];计算机研究与发展;2016年06期
14 刘鹏;何雯;肖巍巍;;基于GPGPU技术快速提取数字表面模型[J];测绘地理信息;2014年02期
15 李小强;安虹;吴石磊;;一个面向存储优化GPGPU编译器[J];小型微型计算机系统;2014年04期
16 闸旋;王慧;程挺;李鹏程;陈永枫;;基于GPGPU的数学形态学LiDAR点云快速滤波方法[J];测绘科学技术学报;2013年01期
17 张喜明;陈旸;;基于VPX标准总线的GPGPU平台的图像几何校正[J];无线电工程;2014年01期
中国重要会议论文全文数据库 前3条
1 薛文良;马胜;许邦建;李晨;;面向GPGPU片上网络的高效动态虚通道划分机制研究[A];第二十届计算机工程与工艺年会暨第六届微处理器技术论坛论文集[C];2016年
2 马虓;王庆林;张洋;邢座程;;GPGPU应用程序特征分析[A];第十七届计算机工程与工艺年会暨第三届微处理器技术论坛论文集(上册)[C];2013年
3 严历;郭力;李晓霞;;分子动力学模拟软件GROMACS向GPGPU移植初探[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
中国博士学位论文全文数据库 前9条
1 岳恒山;面向GPGPU体系结构的软错误弹性分析与容错策略研究[D];吉林大学;2022年
2 马安国;高效能GPGPU体系结构关键技术研究[D];国防科学技术大学;2011年
3 张涛;高性能低能耗GPGPU计算技术研究[D];上海交通大学;2015年
4 陈春雷;面向GPGPU的并行增量式聚类算法研究[D];西北工业大学;2014年
5 赖斯;基于GPGPU的PageRank值计算[D];中山大学;2017年
6 王洪;航空光电平台图像稳定技术研究[D];中国科学院研究生院(长春光学精密机械与物理研究所);2012年
7 赵增;基于执行—访存解耦合体系结构的优化方法研究[D];中国科学技术大学;2014年
8 徐新海;硬件故障在程序中的传播行为分析及容错技术研究[D];国防科学技术大学;2012年
9 卢维;高精度实时视觉定位的关键技术研究[D];浙江大学;2015年
中国硕士学位论文全文数据库 前20条
1 张燕;基于GPGPU的增强现实三维注册算法实时性研究[D];郑州大学;2012年
2 何锐;GPGPU多核流体系结构与功耗模拟研究[D];国防科学技术大学;2010年
3 张玉洁;基于多GPGPU并行计算的虚拟化技术研究[D];南京航空航天大学;2015年
4 张茹玉;基于GPGPU平台的软错误检测模型研究[D];吉林大学;2020年
5 陈云飞;基于GPGPU的一种回归测试预优化方法[D];北京化工大学;2014年
6 温万里;基于GPGPU计算的数字图像加密技术研究[D];杭州电子科技大学;2014年
7 赵夏;GPGPU并行模拟与低开销片上网络设计[D];国防科学技术大学;2014年
8 姜楠;面向GPGPU平台的高能效指令复制方法研究[D];吉林大学;2022年
9 张勇加;基于Intel Gen的GPGPU控制流处理方法的研究与实现[D];吉林大学;2015年
10 孟炜;基于线程重组的GPGPU访存不规则问题微架构方案研究与验证[D];东南大学;2016年
11 詹云;基于GPGPU的软阴影算法研究[D];郑州大学;2013年
12 刘毅;基于GPGPU的快速体绘制算法研究[D];湖南大学;2009年
13 刘雁健;基于GPGPU的并行数字图像加密算法研究[D];杭州电子科技大学;2014年
14 窦云广;基于GPGPU加速的铁轨扣件识别研究[D];北京交通大学;2014年
15 郭妙;基于GPGPU系统的GRAPES-GLOBAL长波辐射过程并行设计与优化[D];中国气象科学研究院;2012年
16 步繁;基于GPGPU的立体匹配算法并行化研究及应用系统[D];北京邮电大学;2016年
17 周洁芸;GPGPU加强的3D粒子滤波跟踪算法研究[D];电子科技大学;2015年
18 韦刚;基于GPGPU平台的对角线模型问题研究[D];复旦大学;2011年
19 杨耀华;GPGPU非一致控制流的优化技术研究[D];国防科技大学;2018年
20 李孝科;一种基于遗传算法的GPGPU极限功耗测试框架[D];中国科学技术大学;2014年
中国重要报纸全文数据库 前2条
1 本报记者 赵娜;解码天数智芯:芯片初创企业突围百亿GPGPU市场[N];21世纪经济报道;2020年
2 记者 刘锟;7纳米GPGPU云端训练芯片成功“点亮”[N];解放日报;2021年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978