收藏本站
《复旦大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

众核GPU体系结构相关技术研究

陈钢  
【摘要】:大规模数据并行应用对可扩展性、计算能力和存储带宽的迫切需求促使高性能微处理器正在向众核体系结构演变。作为一种新型的众核体系结构,图形处理器(GPU)采用大量晶体管用于计算单元,采用相对简单的控制逻辑,具有非常高效的存储带宽层次。现代GPU体系结构所具有的片上计算单元密集、存储带宽高效、性价比高等鲜明的特点,形成了一个崭新的研究领域一基于GPU的通用计算(GPGPU),即利用GPU来实现更为广泛的数据并行计算。 受体系结构和可编程性的制约,早期的GPU未能在并行计算领域普及。随着高级编程模型(如AMD/ATI STREAM TM、NVIDIA CUDATM和OpenCL)的相继推出,GPU程序设计的复杂性在一定程度上得到降低。为了节约设计成本并实现未来体系结构的可扩展性,GPU体系结构通常采用分散式硬件设计。与CPU存储系统相比,GPU存储系统的设计目标是维持高吞吐量而非低延迟。虽然GPU体系结构可以同时维持大量的线程,以零开销的硬件线程切换来隐藏存储访问延迟,但是如果应用程序中存在大量的不规则数据访问,势必会造成很多线程因同时访存而出现暂停,浪费了宝贵的计算资源。GPU特殊的体系结构使得高级编程模型下的应用程序难以充分利用其强大的计算能力和高效的存储带宽,编写高性能的GPGPU程序需要考虑如何将应用程序有效映射至GPU硬件上加以执行。此外,GPU的并行编程模型与传统的串行编程模型存在差异,基于GPU体系结构的应用开发与优化方法也与传统方法有着很大不同。由于GPU体系结构底层硬件的复杂性,编译器并没有对应用程序进行充分的优化。为了指导应用程序高效映射到GPU体系结构上执行,本文研究了面向众核GPU体系结构的性能评估与优化方法,具体工作如下: (1)当应用程序映射到GPU体系结构上执行时,很多因素都会降低程序的性能,一种量化的性能模型可以用于评估特定应用移植至GPU体系结构上的实际执行性能。由于现代GPU体系结构的复杂性,传统的并行计算模型无法用于评估GPGPU程序的性能。为了预测应用程序并行化后的执行性能,评估并行化过程中可能存在的性能瓶颈,本文针对GPU体系结构提出了一种量化的性能评估模型。该模型建立在抽象GPU体系结构和执行模型的基础上,充分考虑了影响GPGPU程序性能的各种因素(如全局存储器的接合访问、局部存储器的冲突访问、计算与存储访问重叠、条件分支转移、同步),在无需编写实际GPGPU程序的前提下,通过对应用程序的静态分析并结合GPU的性能参数设定具体的执行配置,即可估算出应用程序并行化后的执行时间。实验结果表明,该性能模型能够较为准确地评估应用程序在GPU体系结构上的执行时间。 (2)在GPU体系结构的存储系统中,全局存储器容量较大但访问延迟较高,快速存储器(如局部存储器)访问速度较快但容量有限。因此,改善数据在全局存储器中的布局,减少不规则存储访问,合理利用片上快速存储器,减少总体的存储访问开销对于提升GPGPU程序的性能至关重要。为了充分发挥GPU体系结构在存储带宽方面的优势,本文提出了基于多面体模型的存储优化方法。该方法建立源程序的多面体表示,分别对GPU的全局存储器和快速存储器进行优化与分配:通过检测存储访问模式,发掘可向量化的存储访问实例,利用数据空间变换对不规则存储访问模式进行转换,提高了GPU片外存储器的带宽利用率;通过检测程序中的数据重用,根据数据的访问属性和GPU存储器硬件的特性,实现了快速存储器的有效分配;采用坐标转换和增加偏移量的技术分别对IMAGE存储对象和局部存储器进行优化,提高了片上存储器的使用效率。实验结果表明,该存储优化方法可以使得程序的性能相对优化前提升1.2-8.4倍。 (3)循环和数组结构通常具有计算密集和数据并行的特征,因此这种结构通常是GPU计算核心的天然候选。然而在一些应用程序中,数据依赖和控制相关阻碍了它们在GPU体系结构上高效地运行。由于GPU体系结构同时强调计算密集与数据并行,因此将计算重构和数据重构加以组合更能够充分开发其性能潜力。为了使应用程序能够充分开发GPU体系结构的性能潜力,本文提出了面向GPU体系结构的程序重构方法:首先通过循环合并与拆分的计算重构增大了应用程序的可并行性,尽可能消除操作间的依赖关系,提高所生成GPU计算核心的计算密集性,有利于存储访问延迟的隐藏;其次,通过对线程内和线程问的数据访问进行重构,减少了GPU计算核心的存储访问次数;最后,通过条件执行、分支化简和间接索引等重构技术,减少了分支转移对于程序性能的负面影响。实验结果表明,该程序重构方法可以使得程序性能相对重构前提升1.18-2.56倍。 (4)数据并行应用中的非计算密集型算法存在存储墙问题,在基于GPU的并行化过程中显得更为突出。为了有效缓解存储受限型应用的存储墙问题,本文针对生物序列比对领域设计了一种基于GPU的Smith-Waterman并行算法:通过改变原有Smith-Waterman算法的计算流程和数据依赖关系,进一步增加了序列比对的并行性;通过实施面向GPU体系结构的优化方法,进一步提升了序列比对的性能和效率。实验结果表明,经过优化的Smith-Waterman算法与CPU上的串行算法相比提升了近115倍。 本文在众核GPU体系结构上的研究成果对今后在GPU上开发通用计算及面向其他众核体系结构的优化编译器方面具有借鉴意义。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.41

手机知网App
【引证文献】
中国博士学位论文全文数据库 前1条
1 文武;基于C/G架构的大规模地学三维场景渲染方法研究[D];成都理工大学;2013年
中国硕士学位论文全文数据库 前3条
1 林文愉;基于GPU的轴流压气机旋转失速检测系统设计[D];华南理工大学;2013年
2 蒲刚;平行基线解模糊干涉仪测向算法及实现[D];电子科技大学;2013年
3 周子航;基于OpenCL异构计算的数学图像绘制[D];广州大学;2013年
【参考文献】
中国期刊全文数据库 前8条
1 吴恩华,柳有权;基于图形处理器(GPU)的通用计算[J];计算机辅助设计与图形学学报;2004年05期
2 韩博;周秉锋;;GPGPU性能模型及应用实例分析[J];计算机辅助设计与图形学学报;2009年09期
3 陈曦;王章野;何戬;延诃;彭群生;;GPU中的流体场景实时模拟算法[J];计算机辅助设计与图形学学报;2010年03期
4 温婵娟;欧嘉蔚;贾金原;;GPU通用计算平台上的SPH流体模拟[J];计算机辅助设计与图形学学报;2010年03期
5 林江;唐敏;童若锋;;GPU加速的生物序列比对[J];计算机辅助设计与图形学学报;2010年03期
6 任化敏;张勇东;林守勋;;GPU加速的基于增量式聚类的视频拷贝检测方法[J];计算机辅助设计与图形学学报;2010年03期
7 李博;李曦鹏;张云;陈飞国;徐骥;王小伟;何险峰;王健;葛蔚;李静海;;耦合Nvidia/AMD两类GPU的格子玻尔兹曼模拟[J];科学通报;2009年20期
8 杜静;敖富江;唐滔;杨学军;;流处理器上基于参数模型的长流分段技术[J];软件学报;2009年09期
中国博士学位论文全文数据库 前1条
1 杜静;流体系结构的编译技术研究[D];国防科学技术大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 徐品;蓝善祯;刘兰兰;;利用GPU进行通用数值计算的研究[J];中国传媒大学学报(自然科学版);2009年02期
2 李立新;叶剑;余洋;;基于GPU的MD6算法快速实现[J];北京工业大学学报;2010年05期
3 陈红倩;李凤霞;黄天羽;战守义;;一种基于动态纹理的运动场景可视化方法[J];北京理工大学学报;2009年06期
4 李伟伟;王健;陈轶;王钲旋;;火焰实时模拟的新算法[J];吉林大学学报(信息科学版);2008年06期
5 邹贤才;李建成;汪海洪;徐新禹;;OpenMP并行计算在卫星重力数据处理中的应用[J];测绘学报;2010年06期
6 王尔智;刘海峰;关盛楠;王连鹏;曹云东;;SF_6断路器空载介质恢复特性数值模拟中的并行计算[J];电工技术学报;2007年10期
7 黄玉龙;刘明波;;应用图形处理器实现无功优化并行计算[J];电工技术学报;2011年11期
8 吴海燕;孙明波;邵艳;汪洪波;周进;;超声速多相流数值模拟并行计算研究[J];弹箭与制导学报;2009年02期
9 李建明;万单领;何荣盛;钱昆明;;一种基于GPU加速的图像颜色传递算法[J];大连理工大学学报;2008年02期
10 王梦雪;陶卫;杨金峰;吴芳;赵辉;王卫东;任盛伟;;基于GPU的高速铁路扣件实时探测技术[J];大连交通大学学报;2011年06期
中国重要会议论文全文数据库 前10条
1 王晨晖;肖永浩;;基于多约束图剖分的冲击-接触问题区域分割算法[A];中国计算力学大会'2010(CCCM2010)暨第八届南方计算力学学术会议(SCCM8)论文集[C];2010年
2 费广磊;马天宝;宁建国;郝莉;;基于MPI的三维爆炸与冲击问题的动态并行研究[A];第十二届现代数学和力学会议论文集[C];2010年
3 张磊;张国新;;基于重叠区域分解思想的有限元程序并行化研究[A];北京力学会第十六届学术年会论文集[C];2010年
4 李瑞瑞;高小鹏;龙翔;;用GPU加速Cache模拟[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
5 李蔚清;苏智勇;杨正龙;吴慧中;;一种复杂目标RCS估计的快速仿真方法[A];2007系统仿真技术及其应用学术会议论文集[C];2007年
6 陈琰;高月芳;朱同林;;基于顶点属性的三维网格模型混合平滑算法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 罗月童;薛晔;刘晓平;;基于GPU的多分辨率体数据重构技术研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
8 谢文军;陈皓;刘晓平;;基于GPU的实时水面模拟方法研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(上册)[C];2008年
9 陈皓;刘晓平;;基于投影距离的改进软阴影生成算法[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
10 林旭生;田绪红;冯志炜;陈茂资;;GPU加速的蚁群算法在HP模型中的应用[A];第十四届全国图象图形学学术会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 吴锋;基于GPU并行计算的数值模拟与燃煤锅炉系统的优化研究[D];浙江大学;2010年
2 张帆;基于MPI和GPU直流电法和大地电磁法三维正演的并行算法研究[D];中国地质大学(北京);2011年
3 何旭莉;[D];中国石油大学;2011年
4 张云;多孔介质中流动的格子Boltzmann模拟[D];中国石油大学;2011年
5 陈永健;基于内容的大规模图像检索关键技术研究[D];华中科技大学;2011年
6 唐滔;面向CPU-GPU异构并行系统的编程模型与编译优化关键技术研究[D];国防科学技术大学;2012年
7 龚春叶;面向异构体系结构的粒子输运并行算法研究[D];国防科学技术大学;2011年
8 神和龙;海上搜救模拟器中视景特效的建模与真实感绘制[D];大连海事大学;2011年
9 陈俊;近海海浪的仿真研究[D];武汉理工大学;2011年
10 夏明亮;高精度人眼像差哈特曼探测器的研制[D];中国科学院研究生院(长春光学精密机械与物理研究所);2011年
中国硕士学位论文全文数据库 前10条
1 朱圣鑫;并行GPBiCG(m,l)算法与预处理技术[D];中国工程物理研究院;2010年
2 吕信;激光能量沉积光路追踪法及其并行化[D];中国工程物理研究院;2009年
3 韩君;近期数据流频繁项集挖掘[D];大连理工大学;2010年
4 魏卓群;GPU并行免疫算法在冷轧生产调度中的应用[D];大连理工大学;2010年
5 梁霞;基于GPU的H.264并行解码器设计[D];大连理工大学;2010年
6 吕艳;反走样技术和滤波技术在地图可视化表达中的应用[D];辽宁工程技术大学;2009年
7 付浩生;交互式海洋动漫平台场景特效制作[D];中国海洋大学;2010年
8 胡英芳;基于OpenGL的离散粒子系统仿真的设计与实现[D];南昌大学;2010年
9 林江;GPU流式计算模型应用研究[D];浙江大学;2011年
10 闫浩;MPICH在工作站机群环境下通信机制的分析与优化[D];解放军信息工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 颜辉武,马晨燕,祝国瑞,高山;地学信息体视化中3维交互技术的研究与实现[J];测绘学报;2005年01期
2 姚晓南;唐琳;文叙菠;王孜;;干涉仪测向体制研究[J];长江大学学报(自然科学版)农学卷;2009年02期
3 董春梅;张宪国;林承焰;;地震沉积学的概念、方法和技术[J];沉积学报;2006年05期
4 韩雅菲;梁国龙;付进;殷敬伟;;有效降低计算量的粒子滤波多用户检测新方法[J];电波科学学报;2010年03期
5 李博;刘国峰;刘洪;;地震叠前时间偏移的一种图形处理器提速实现方法[J];地球物理学报;2009年01期
6 刘宪斌,林金逞,韩春明,穆剑;地震储层研究的现状及展望[J];地球学报;2002年01期
7 滕吉文;20世纪地球物理学的重要成就和21世纪的发展前沿[J];地学前缘;2003年01期
8 魏合文;王军;叶尚福;;一种基于余弦函数的相位干涉仪阵列DOA估计算法[J];电子与信息学报;2007年11期
9 曾理;倪风岳;刘宝东;洪达平;;计算机统一设备架构加速外部计算机断层图像重建[J];电子与信息学报;2011年11期
10 孙国庆,施木俊,雷永红,唐传政;三维工程地质模型与可视化研究[J];工程勘察;2001年05期
中国博士学位论文全文数据库 前10条
1 彭滔;分布参数系统的确定学习理论及其应用[D];华南理工大学;2011年
2 贾佳;异构并行计算机容错技术研究[D];国防科学技术大学;2011年
3 龚春叶;面向异构体系结构的粒子输运并行算法研究[D];国防科学技术大学;2011年
4 蒋康涛;低速轴流压气机旋转失速的数值模拟研究[D];中国科学院研究生院(工程热物理研究所);2004年
5 王保进;嵌入式实时系统的任务调度与资源共享模型及算法研究[D];中国人民解放军信息工程大学;2005年
6 邓飞;剖面三维地质建模与高斯射线束正演的研究与实现[D];成都理工大学;2007年
7 韩元利;基于GPU编程的虚拟自然环境技术研究[D];武汉大学;2007年
8 白洪涛;基于GPU的高性能并行算法研究[D];吉林大学;2010年
9 毛华庆;基于GPU优化的三维实时渲染技术的研究[D];武汉大学;2010年
10 陈填锐;确定学习理论与智能振动故障诊断[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 韩广;干涉仪快速测向算法的研究与实现[D];解放军信息工程大学;2010年
2 肖峰;GPU高性能运算在计算机围棋博弈系统中的应用研究及实验[D];北京邮电大学;2011年
3 梅晶;校园网微博系统的设计与实现[D];华南理工大学;2011年
4 周龙沙;基于确定学习的航空发动机旋转失速快速检测的并行计算实现[D];华南理工大学;2011年
5 杜浩;基于网格与并行技术的电力系统动态安全评估[D];上海交通大学;2011年
6 孟伟超;基于GPU/CPU多级并行CFD优化策略的研究[D];上海交通大学;2012年
7 成思远;异构(CPU-GPU)计算机系统性能评测与优化技术研究[D];国防科学技术大学;2011年
8 黄锦增;基于GPU的常见散列算法并行实现及优化[D];华南理工大学;2011年
9 张海燕;五通道相位干涉仪测向的研究和实现[D];成都理工大学;2004年
10 段福洲;地质体三维模型和数据结构的研究与实现[D];首都师范大学;2004年
【二级参考文献】
中国期刊全文数据库 前10条
1 戴正华;张庆丹;徐琳;谭光明;冯圣中;;基于SSE2的Smith-Waterman算法[J];计算机工程与应用;2006年11期
2 吴恩华,柳有权;基于图形处理器(GPU)的通用计算[J];计算机辅助设计与图形学学报;2004年05期
3 柳有权;刘学慧;朱红斌;吴恩华;;基于物理的流体模拟动画综述[J];计算机辅助设计与图形学学报;2005年12期
4 唐敏;董金祥;;GPU上的非侵入式风格化渲染[J];计算机辅助设计与图形学学报;2005年12期
5 周世哲;满家巨;;基于多重网格法的实时流体模拟[J];计算机辅助设计与图形学学报;2007年07期
6 周季夫;钟诚文;尹世群;解建飞;张勇;;基于GPGPU的Lattice-Boltzmann数值模拟算法[J];计算机辅助设计与图形学学报;2008年07期
7 连瑞琦,张兆庆,乔如良;指令级并行编译器的数据预取及优化方法[J];计算机学报;2000年06期
8 吴恩华;图形处理器用于通用计算的技术、现状及其挑战[J];软件学报;2004年10期
9 柳有权;刘学慧;吴恩华;;基于GPU带有复杂边界的三维实时流体模拟[J];软件学报;2006年03期
10 曹锋;周傲英;;基于图形处理器的数据流快速聚类[J];软件学报;2007年02期
中国博士学位论文全文数据库 前1条
1 车永刚;科学计算程序性能分析与优化关键技术研究[D];国防科学技术大学;2004年
中国硕士学位论文全文数据库 前1条
1 王桂彬;面向科学计算的流应用开发与优化[D];国防科学技术大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 李金良;日本正准备制造数据流计算机[J];计算机工程与设计;1983年04期
2 惠毓明;;CONVEX C-1小巨型计算机的体系结构[J];计算机研究与发展;1988年12期
3 郭仲伟,张燕云,肖田元;计算机集成制造系统(CIMS)的体系结构、模型与方法[J];管理科学学报;1994年01期
4 倪鹏云;对开放系统互联OSI有关重要概念的分析[J];计算机工程与科学;1994年04期
5 江芳泽,李昕;现场总线体系结构的研究[J];自动化仪表;1996年03期
6 尚明,李晶;Internet网络体系结构及其应用资源[J];术语标准化与信息技术;1996年03期
7 Markus Levy;;微机体系结构主宰芯片集的特性[J];电子设计技术;1997年05期
8 王晨;;Bay副总裁“泄密” 交换路由集一芯片[J];每周电脑报;1997年35期
9 ;TI方案端口多[J];每周电脑报;1997年49期
10 曲润涛,彭健,杜秀华,冯为民;基于CIPS体系结构的信息模型的实现[J];化工自动化及仪表;1998年02期
中国重要会议论文全文数据库 前10条
1 王宇;程小辉;;基于移动agent虚拟仪器系统体系结构研究[A];第三届全国虚拟仪器大会论文集[C];2008年
2 徐海;韩宇;孙永兵;韦水生;邓庆绪;于戈;;基于软硬件联合设计的嵌入式实时数据库体系结构[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 萧蕴诗;武广;徐立鸿;;复杂信息系统集成方法及其在智能建筑中的应用研究[A];1998中国控制与决策学术年会论文集[C];1998年
4 魏定国;;试论企业级数据传输体系结构[A];1998中国控制与决策学术年会论文集[C];1998年
5 董永贵;董恩生;贾惠波;;生物启发仪器的体系结构及实现技术[A];第二届全国信息获取与处理学术会议论文集[C];2004年
6 苗宇;程荫杭;张超;;室外自主轮式移动机器人的发展及关键技术[A];可持续发展的中国交通——2005全国博士生学术论坛(交通运输工程学科)论文集(下册)[C];2005年
7 刘仲英;胡衍强;胡斌;;物流公共信息平台的体系结构研究[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
8 李劲;;综合射频传感器的开放式系统结构[A];中国雷达行业协会航空电子分会暨四川省电子学会航空航天专委会学术交流会论文集[C];2005年
9 王瑜;孟涛;相敬林;夏靖波;;一种应用于Ad hoc网络管理的分簇算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
10 蔡京平;贾云得;;星球探测机器人分布式计算系统体系结构研究[A];中国宇航学会深空探测技术专业委员会第一届学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 四川 陈路;浅谈网格的典型体系结构[N];电子报;2008年
2 ;电联关注面向用户基于业务的体系结构[N];人民邮电;2001年
3 安烨;企业门户的特点及体系结构[N];网络世界;2001年
4 ;诠释智能理念 奠基存储未来[N];计算机世界;2003年
5 刘钝;我国研究成果对新一代互联网体系结构产生重大影响[N];大众科技报;2007年
6 ;思科演示IP网络体系结构[N];中国电子报;2000年
7 ;新砖瓦精装新数据中心[N];网络世界;2006年
8 彭芳;更新ASIC体系结构[N];中国计算机报;2001年
9 李贵林;瑞星:网络杀毒取决于体系结构[N];计算机世界;2002年
10 憨墨;构画20世纪出版学的体系结构[N];中华读书报;2005年
中国博士学位论文全文数据库 前10条
1 陈钢;众核GPU体系结构相关技术研究[D];复旦大学;2011年
2 王醒策;基于强化学习和群集智能方法的多机器人协作协调研究[D];哈尔滨工程大学;2005年
3 李治军;美韩同盟与东亚安全:一种结构主义理论的分析[D];复旦大学;2008年
4 杨建宇;基于组件的分布式地理信息服务研究[D];中国科学院研究生院(遥感应用研究所);2005年
5 董艇舰;基于开放结构数控系统引导型二次开发仿真平台构建研究[D];天津大学;2005年
6 孟宪松;多水下机器人系统合作与协调技术研究[D];哈尔滨工程大学;2006年
7 耿文莉;中国林产工业企业管理信息化问题研究[D];东北林业大学;2007年
8 夏绪辉;逆向供应链的体系结构及其物流关键技术研究[D];重庆大学;2003年
9 林川;基于立体跨层体系结构无线传感器网络的能量问题研究[D];武汉大学;2007年
10 严勇杰;多机器人系统协调与控制研究[D];哈尔滨工程大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘丹;基于GPU的分子动力学模拟方法研究[D];武汉理工大学;2010年
2 陈枫;基于GPU技术的叠前时间偏移及其在玛湖地区的应用[D];中国地质大学(北京);2011年
3 覃方涛;基于GPU的车牌定位关键技术并行研究[D];重庆大学;2010年
4 魏卓群;GPU并行免疫算法在冷轧生产调度中的应用[D];大连理工大学;2010年
5 金鹭;基于GPU的表面形貌测量系统的研究[D];浙江大学;2011年
6 常武;三层分布式PACS体系结构的研究与实现[D];北京工业大学;2001年
7 王征;现场总线通信技术的研究与实现[D];大庆石油学院;2004年
8 屈红军;基于网关安全平台的虚拟线程体系结构[D];华中科技大学;2004年
9 白玉;基于供应链的采购管理系统研究[D];河北工业大学;2005年
10 朱健松;一种基于RISC及DSP双内核集成芯片系统的研究[D];广东工业大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026