收藏本站
《国防科学技术大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

高效能GPGPU体系结构关键技术研究

马安国  
【摘要】:工艺技术的进步和应用需求的变迁,驱动着处理器体系结构不断地革新。线程级并行(TLP,Thread Level Parallelism)和数据级并行(DLP,Data Level Parallelism)逐渐取代指令级并行(ILP,Instruction Level Parallelism)成为体系结构研究的重点。通用图形处理器(GPGPU,General Purpose Graphic Processing Unit)体系结构则是在多核和众核研究趋势下,集成大量并行计算资源深度挖掘TLP和DLP、面向吞吐率的设计。GPGPU采用层次式组织方式并发执行大规模线程,同时提供传统Cache层次和分布式便签存储器以支持多模式访存,从而能够很好地满足高性能计算和科学计算领域中应用对大规模并行计算的迫切需求。随着GPGPU在高性能计算和科学计算领域中的广泛应用,目前GPGPU面临着新的挑战,如资源利用率低、功耗高以及可靠性低等问题。而相关领域的研究仍处于初步阶段,有很多关键技术值得探索和研究。 本文深入研究了GPGPU的体系结构和相关开发平台,在此基础上着重研究了GPGPU的应用映射和性能优化技术、资源优化配置策略、负载均衡策略、体系结构级功耗模型、并行容错算法设计以及存储部件低开销容错设计等方面。本文的工作和创新主要体现在: 1.提出了GPGPU体系结构中计算资源与访存带宽间的优化配置策略。 GPGPU在片上集成了大量的并行计算资源,需要前端总线提供高访存带宽以满足计算资源对数据的需求。本文使用GPGPU性能模拟器对GPGPU体系结构中的计算资源和存储控制器之间的配置比例进行对比实验,并分析配置比例对程序性能的影响。基于实验分析结果,采用粗粒度的配置比例组合对具有不同访存特征的测试程序集进行测试。结果表明,针对不同应用程序的计算访存特征,选择最优的计算资源和带宽比例,能够实现应用在GPGPU平台上的高效加速方案。 2.提出了一种基于流计算的系统级任务划分负载均衡策略。GPGPU提供了丰富的存储资源和灵活的存储层次以支持多种访存模式并缓解前端总线带宽负载。本文系统性地研究了GPGPU上的负载均衡优化策略。首先,为提高计算访存比、增加数据重用度以减少片外访存,在计算kernel级采用循环展开和预取策略调整程序执行控制流。其次,将GPGPU负责执行的任务划分为多个并行流以隐藏数据传输开销。最后,从系统级任务划分角度出发,将应用划分为不同任务,在系统中的不同计算设备上并行执行,并根据各设备实际计算能力,提取最佳的划分因子。基于以上工作,提出基于流计算的系统级任务划分策略。 3.实现了高性能Linpack在GPGPU上的应用映射和加速。高性能Linpack(HPL,High Performance Linpack)是衡量超级计算机能力的最重要标准之一。矩阵乘算法和LU分解算法是HPL的关键部分,其中矩阵乘计算占整个计算的绝大部分比例。本文对HPL源代码中的矩阵乘函数调用进行封装,通过任务划分实现矩阵乘算法在CPU和GPGPU上的并行计算,并对在GPGPU上运行的任务采用循环展开、预取以及流化等优化手段隐藏计算的全局访存延时和CPU-GPGPU间的数据传输开销。根据系统中设备实际执行性能调整任务划分因子、矩阵规模以及分块大小等关键参数,获得了应用在异构系统中的执行性能峰值。 4.提出了基于功耗经验值的体系结构级GPGPU功耗模型。尽管GPGPU在很多通用计算领域中的效能远高于通用CPU,但其高功耗仍会带来芯片制造及冷却成本上升、系统运行成本增加以及稳定性降低等问题。本文研究了当前GPGPU效能和功耗评估的手段和方法,深入分析对比了各种功耗评估策略的优缺点。基于功耗经验数据,对抽象的GPGPU微体系结构进行体系结构级功耗建模,实现了功耗模块在GPGPU性能模拟器中的融合,并对功耗模型进行了验证。 5.提出了GPGPU并行容错算法设计模式。由于图形计算本身具有容错特征,因此传统GPU并未考虑可靠性设计和容错机制。然而科学计算领域中的应用对系统的可靠性要求很高,可靠性问题制约着GPGPU在通用计算领域中的应用和发展。本文根据GPGPU硬件资源冗余和执行线程采用层次式组织的特点,提出并实现了简单冗余计算容错模式、基于并行检错的冗余计算容错模式、基于任务划分的线程块级并行容错以及基于流计算模式的冗余计算容错等检错机制。在保证可靠性的前提下,充分利用GPGPU片上计算资源,减少并行容错带来的数据传输操作和数据传输延时。 6.提出了一种针对存储部件的低开销容错设计方法。体系结构弱点因子(AVF,Architectural Vulnerability Factor)是最常用的处理器可靠性评估指标之一,具有明显的动态变化特性。AVF-aware动态容错管理机制是根据AVF的变化来动态选择是否对处理器部件进行容错保护,从而在满足软错误可靠性要求的前提下最小化了容错设计带来的开销。本文提出使用基于贝叶斯累加回归树BART(Bayesian Additive Regression Trees)模型的存储部件AVF预测模型,并将该模型融入到GPGPU的AVF-aware ECC动态容错机制中。该动态容错技术基于部件的实时AVF值,选择是否开启或关闭ECC保护,在满足可靠性要求的前提下有效降低了ECC带来的功耗开销,兼顾了程序运行的性能、功耗和可靠性。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.41

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 朱豪杰;韩俊刚;邓军勇;吴成茂;;GPU命令处理器的存储管理单元设计[J];西安邮电大学学报;2013年01期
2 原略超;张洋;唐川;邢座程;;基于GPGPU的LDPC解码访存优化技术[J];中国科技论文;2013年07期
中国博士学位论文全文数据库 前1条
1 甘新标;面向众核GPU的编程模型及编译优化关键技术研究[D];国防科学技术大学;2012年
中国硕士学位论文全文数据库 前9条
1 裴莹;基于OpenCL的AES算法的多线程并行实现[D];吉林大学;2012年
2 常健;K-Means算法的一种GPU实现[D];吉林大学;2012年
3 林乐森;基于OpenCL的AES算法并行性分析及加速方案[D];吉林大学;2012年
4 孙敏敏;Backprojection成像多核并行计算系统设计[D];南京大学;2013年
5 龚文宁;基于OpenCL的H.264关键模块并行算法设计与实现[D];大连理工大学;2013年
6 张瑶;二维磁场重联的OpenCL研究[D];中国地质大学(北京);2013年
7 詹芳芳;线积分卷积二维矢量场可视化方法的研究和改进[D];北京化工大学;2013年
8 范琪蓉;基于CUDA的H.264视频解码算法的研究与实现[D];南京理工大学;2014年
9 李孝科;一种基于遗传算法的GPGPU极限功耗测试框架[D];中国科学技术大学;2014年
【参考文献】
中国期刊全文数据库 前2条
1 吴恩华;图形处理器用于通用计算的技术、现状及其挑战[J];软件学报;2004年10期
2 李腾,刘静;芯片冷却技术的最新研究进展及其评价[J];制冷学报;2004年03期
中国博士学位论文全文数据库 前2条
1 张承义;超深亚微米微处理器漏流功耗的体系结构级优化技术研究[D];国防科学技术大学;2006年
2 周宏伟;微处理器中Cache漏流功耗的体系结构级优化技术研究[D];国防科学技术大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 孟涛;;假设检验中的随机化检验[J];安徽电子信息职业技术学院学报;2006年01期
2 高明;柏跃迁;;方差分量二次型估计及容许性[J];安徽师范大学学报(自然科学版);2007年01期
3 叶仁玉;正态性检验在教学质量监控中的应用[J];安庆师范学院学报(自然科学版);2005年03期
4 蔡定教;;置换检验及其应用[J];安阳师范学院学报;2010年02期
5 许俊美;宋立新;;一种对称损失下Pareto分布参数的Bayes估计[J];白城师范学院学报;2007年03期
6 徐品;蓝善祯;刘兰兰;;利用GPU进行通用数值计算的研究[J];中国传媒大学学报(自然科学版);2009年02期
7 程维虎,陈冬;Logistic分布参数的渐近置信估计(Ⅰ)[J];北京工业大学学报;2001年02期
8 李立新;叶剑;余洋;;基于GPU的MD6算法快速实现[J];北京工业大学学报;2010年05期
9 张英,籍艳;应用Fiducial方法推断Logistic模型下的响应刺激量[J];滨州师专学报;2003年04期
10 裴纺霞;王恒辉;;基于数据融合的加速度传感器的静态模型辨识[J];传感技术学报;2005年04期
中国重要会议论文全文数据库 前9条
1 杨娟;冯诗愚;刘卫华;;计算机芯片冷却技术的研究现状与发展[A];中国建筑学会建筑热能动力分会第十六届学术交流大会论文集[C];2009年
2 诸凯;张颖;梁雨迎;;高功率芯片冷却散热的实验研究与数值计算[A];第十届海峡两岸冷冻空调技术研讨会论文集[C];2011年
3 刘静;;基于微纳机电技术的可穿戴式空调系统[A];第七届功能性纺织品及纳米技术应用研讨会论文集[C];2007年
4 刘伟峰;唐先明;韩宝东;朱文妹;;基于GPU计算的光线投射法体绘制研究[A];图像图形技术研究与应用2009——第四届图像图形技术与应用学术会议论文集[C];2009年
5 任鸿翔;金一丞;尹勇;;基于GPU的多重凹凸贴图方法[A];2007系统仿真技术及其应用学术会议论文集[C];2007年
6 张春燕;;一种基于图形处理器的数据流计算模式[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
7 刘伟峰;蒋楠;宋付英;孟凡密;陈芳莉;;图像处理的GPU加速技术研究与评价[A];第十四届全国图象图形学学术会议论文集[C];2008年
8 宋立新;鲁大伟;付增梁;;TARCH(q)模型参数的极大似然估计[A];中国现场统计研究会第十三届学术年会论文集[C];2007年
9 陈恩;;电子设备热设计研究[A];第十三届全国热泵与系统节能技术大会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 李敏;基于协同异构模型的成形模拟计算加速[D];华中科技大学;2010年
2 吴锋;基于GPU并行计算的数值模拟与燃煤锅炉系统的优化研究[D];浙江大学;2010年
3 孙岩;纳米集成电路软错误分析与缓解技术研究[D];国防科学技术大学;2010年
4 杨超;虚拟战场中电磁环境三维建模与绘制方法研究[D];国防科学技术大学;2010年
5 郑元满;重磁三维物性实时可视化反演关键技术研究[D];中国地质大学(北京);2011年
6 刘东;高热流密度微结构散热器换热特性的研究[D];中国科学技术大学;2011年
7 徐晓旸;三维虚拟展馆中的光照技术研究[D];南京大学;2011年
8 余业珍;突片激励射流传热和混合特性研究[D];南京航空航天大学;2009年
9 贾小敏;多核处理器片上Cache访问行为分析与优化机制研究[D];国防科学技术大学;2011年
10 郭御风;面向多核微处理器芯片的高效能I/O体系结构及其实现技术[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 韩君;近期数据流频繁项集挖掘[D];大连理工大学;2010年
2 卢晓伟;基于GPU的数据流处理方法研究[D];大连理工大学;2010年
3 吕艳;反走样技术和滤波技术在地图可视化表达中的应用[D];辽宁工程技术大学;2009年
4 付浩生;交互式海洋动漫平台场景特效制作[D];中国海洋大学;2010年
5 李艳红;CPU热柱散热器的实验研究及流场和温度场的数值模拟[D];湘潭大学;2010年
6 戚明渊;基于多模纹理分类的图像隐写分析算法[D];华东理工大学;2011年
7 王涛;基于GPU的程序分析与并行化研究[D];解放军信息工程大学;2010年
8 盛建芳;基于贝叶斯估计的二项分布参数估计[D];浙江工商大学;2011年
9 孙潇;用于芯片散热的蒸发冷却技术[D];东华大学;2011年
10 牛武斌;基于GPU的目标对背景红外辐射的散射计算[D];西安电子科技大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 张文耀;蒋凌霜;;基于HSV颜色模型的二维流场可视化[J];北京理工大学学报;2010年03期
2 曹华平,罗守山,温巧燕,杨义先;AES算法轮密钥与种子密钥之间的关系研究[J];北京邮电大学学报;2002年04期
3 连凤娜;吴锦林;唐琦;;一种改进的K-means聚类算法[J];电脑与信息技术;2008年01期
4 陈昌主;陈小松;;数据压缩算法研究与设计[J];电脑与信息技术;2010年06期
5 曾庆存;周广庆;浦一芬;陈文;李荣凤;廖宏;林朝晖;刘辉志;王必正;谢正辉;徐永福;薛峰;曾晓东;张凤;;地球系统动力学模式及模拟研究[J];大气科学;2008年04期
6 楼剑,陆亮,虞露,董洁;H.264标准的特点及其改进研究[J];电视技术;2003年06期
7 薛亮,于敏,张正炳;一种改进的运动估计算法——新三步搜索法[J];电视技术;2004年04期
8 孙立;王健;郭春辉;季晓勇;;基于CUDA的H.264去方块滤波的设计与实现[J];电视技术;2010年05期
9 吴国雄;李建平;周天军;陆日宇;俞永强;朱江;穆穆;段安民;任荣彩;丁一汇;李维京;何金海;王凡;于卫东;乔方利;袁东亮;齐义泉;;影响我国短期气候异常的关键区:亚印太交汇区[J];地球科学进展;2006年11期
10 尹崇华;延晓冬;石正国;;近年来中等复杂程度地球系统模式的研究进展[J];地球科学进展;2007年03期
中国博士学位论文全文数据库 前10条
1 严明;面向领域应用的异构多核SoC系统结构设计与优化[D];国防科学技术大学;2011年
2 唐滔;面向CPU-GPU异构并行系统的编程模型与编译优化关键技术研究[D];国防科学技术大学;2012年
3 张文;矢量场可视化算法研究与系统设计[D];国防科学技术大学;2001年
4 邓鹍;前瞻多线程编译优化技术的研究与实现[D];国防科学技术大学;2001年
5 韦宝典;高级加密标准AES中若干问题的研究[D];西安电子科技大学;2003年
6 陆剑锋;基于特征的矢量场及医学图像可视化研究[D];浙江大学;2004年
7 张闻宇;高级加密标准的分析[D];山东大学;2007年
8 王美琴;分组密码算法Serpent-256的差分代数分析[D];山东大学;2007年
9 白洪涛;基于GPU的高性能并行算法研究[D];吉林大学;2010年
10 许牧;可重构众核流处理器体系结构关键技术研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 汤方义;基于OpenCV和CUDA的车牌识别系统的软件设计与实现[D];吉林大学;2011年
2 饶兴;基于SSL协议的安全代理的设计[D];武汉理工大学;2011年
3 卢睿;JPEG2000算法中小波模块的GPU并行优化设计[D];西安电子科技大学;2011年
4 覃日钊;线积分卷积与纹理合成在云南重彩画风格化绘制上的应用[D];云南大学;2011年
5 林其选;基于GPU加速的光子映射技术研究[D];杭州电子科技大学;2009年
6 谭显强;基于FPGA的3D图形处理器IP核的设计与实现[D];南京航空航天大学;2010年
7 何锐;GPGPU多核流体系结构与功耗模拟研究[D];国防科学技术大学;2010年
8 苏华友;基于CUDA的H.264并行编码器研究与实现[D];国防科学技术大学;2010年
9 张倩;CUDA平台上序列比对并行软件的优化[D];中国科学技术大学;2011年
10 陈波;基于CPU-GPU异构平台的性能优化及多核并行编程模型的研究[D];中国科学技术大学;2011年
【二级引证文献】
中国硕士学位论文全文数据库 前2条
1 刘端;射线能谱数据实时处理的GPU算法与实现[D];成都理工大学;2013年
2 乔洋;基于GPU的RSA算法并行研究与设计及OpenCL实现[D];华南理工大学;2013年
【二级参考文献】
中国期刊全文数据库 前6条
1 朱宁,周润德,羊性滋;应用遗传算法进行低功耗状态编码[J];电子学报;2000年08期
2 杨华中;汪玉林;海罗嵘;汪蕙;;降低泄漏电流的细粒度休眠晶体管插入法(英文)[J];半导体学报;2006年02期
3 吴恩华,柳有权;基于图形处理器(GPU)的通用计算[J];计算机辅助设计与图形学学报;2004年05期
4 易会战,杨学军;有效的低功耗编译优化方法:部件使用局部化[J];软件学报;2004年10期
5 易会战,陈娟,杨学军,刘喆;基于语法树的实时动态电压调节低功耗算法[J];软件学报;2005年10期
6 李腾,刘静;芯片冷却技术的最新研究进展及其评价[J];制冷学报;2004年03期
中国博士学位论文全文数据库 前1条
1 赵荣彩;多线程低功耗编译优化技术研究[D];中国科学院研究生院(计算技术研究所);2002年
【相似文献】
中国期刊全文数据库 前10条
1 王欣;王宁;;浅谈GPU的存储结构[J];硅谷;2009年16期
2 盛向治;单宝松;;基于GPGPU的多目的混音算法的研究与实现(英文)[J];北京大学学报(自然科学版);2008年01期
3 王磊;王毅刚;;基于GPU加速的多物体碰撞检测方法[J];计算机工程与科学;2009年12期
4 刘琳;何剑锋;王红玲;;GPU加速数据挖掘算法的研究[J];郑州大学学报(理学版);2010年02期
5 张浩;李利军;林岚;;GPU的通用计算应用研究[J];计算机与数字工程;2005年12期
6 马千里;秦畅;卞春华;;GPGPU技术及其在医学图像处理中的应用[J];现代计算机(专业版);2010年08期
7 林一松;唐玉华;唐滔;;GPGPU技术研究与发展[J];计算机工程与科学;2011年10期
8 王世元;温柳英;;GPU光线跟踪算法加速结构研究[J];技术与市场;2010年05期
9 严历;郭力;李晓霞;;分子动力学模拟软件GROMACS向GPGPU移植初探[J];计算机与应用化学;2010年12期
10 钟灿;赵俊;张丹枫;;基于GPGPU的实时结肠虚拟展平技术[J];计算机辅助设计与图形学学报;2011年02期
中国重要会议论文全文数据库 前3条
1 严历;郭力;李晓霞;;分子动力学模拟软件GROMACS向GPGPU移植初探[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
2 李瑞瑞;高小鹏;龙翔;;用GPU加速Cache模拟[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 王晓光;昃琳;刘涛;;CUDA构筑廉价的高性能计算平台[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年
中国重要报纸全文数据库 前2条
1 东海;Chrome 530GT显卡支持OpenGL 3.0和全新GPGPU技术[N];电脑商报;2008年
2 吴秉熹 朱振明;GPGPU技术在石油领域的应用[N];计算机世界;2011年
中国博士学位论文全文数据库 前5条
1 马安国;高效能GPGPU体系结构关键技术研究[D];国防科学技术大学;2011年
2 邹益胜;虚拟样机环境下实时碰撞检测算法研究[D];西南交通大学;2009年
3 徐新海;硬件故障在程序中的传播行为分析及容错技术研究[D];国防科学技术大学;2012年
4 王春;基于VR/GIS一体化城市微观交通虚拟仿真系统的研究与应用[D];中国海洋大学;2010年
5 王洪;航空光电平台图像稳定技术研究[D];中国科学院研究生院(长春光学精密机械与物理研究所);2012年
中国硕士学位论文全文数据库 前10条
1 詹云;基于GPGPU的软阴影算法研究[D];郑州大学;2013年
2 赵雅端;基于GPGPU的复杂网络分析算法的设计与实现[D];北京化工大学;2013年
3 韦刚;基于GPGPU平台的对角线模型问题研究[D];复旦大学;2011年
4 张燕;基于GPGPU的增强现实三维注册算法实时性研究[D];郑州大学;2012年
5 孙冰;基于GPGPU的高效AES彩色数字图像加密技术的研究与实现[D];电子科技大学;2010年
6 何锐;GPGPU多核流体系结构与功耗模拟研究[D];国防科学技术大学;2010年
7 姜珊珊;基于GPU的修正单纯形方法的实现[D];吉林大学;2008年
8 查林;直接体绘制中传输函数的设计[D];西安电子科技大学;2009年
9 刘毅;基于GPGPU的快速体绘制算法研究[D];湖南大学;2009年
10 郑迈;基于网络摄像头的多视全景视频技术研究[D];中国科学技术大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026