收藏本站
收藏 | 论文排版

众核GPU体系结构相关技术研究

陈钢  
【摘要】:大规模数据并行应用对可扩展性、计算能力和存储带宽的迫切需求促使高性能微处理器正在向众核体系结构演变。作为一种新型的众核体系结构,图形处理器(GPU)采用大量晶体管用于计算单元,采用相对简单的控制逻辑,具有非常高效的存储带宽层次。现代GPU体系结构所具有的片上计算单元密集、存储带宽高效、性价比高等鲜明的特点,形成了一个崭新的研究领域一基于GPU的通用计算(GPGPU),即利用GPU来实现更为广泛的数据并行计算。 受体系结构和可编程性的制约,早期的GPU未能在并行计算领域普及。随着高级编程模型(如AMD/ATI STREAM TM、NVIDIA CUDATM和OpenCL)的相继推出,GPU程序设计的复杂性在一定程度上得到降低。为了节约设计成本并实现未来体系结构的可扩展性,GPU体系结构通常采用分散式硬件设计。与CPU存储系统相比,GPU存储系统的设计目标是维持高吞吐量而非低延迟。虽然GPU体系结构可以同时维持大量的线程,以零开销的硬件线程切换来隐藏存储访问延迟,但是如果应用程序中存在大量的不规则数据访问,势必会造成很多线程因同时访存而出现暂停,浪费了宝贵的计算资源。GPU特殊的体系结构使得高级编程模型下的应用程序难以充分利用其强大的计算能力和高效的存储带宽,编写高性能的GPGPU程序需要考虑如何将应用程序有效映射至GPU硬件上加以执行。此外,GPU的并行编程模型与传统的串行编程模型存在差异,基于GPU体系结构的应用开发与优化方法也与传统方法有着很大不同。由于GPU体系结构底层硬件的复杂性,编译器并没有对应用程序进行充分的优化。为了指导应用程序高效映射到GPU体系结构上执行,本文研究了面向众核GPU体系结构的性能评估与优化方法,具体工作如下: (1)当应用程序映射到GPU体系结构上执行时,很多因素都会降低程序的性能,一种量化的性能模型可以用于评估特定应用移植至GPU体系结构上的实际执行性能。由于现代GPU体系结构的复杂性,传统的并行计算模型无法用于评估GPGPU程序的性能。为了预测应用程序并行化后的执行性能,评估并行化过程中可能存在的性能瓶颈,本文针对GPU体系结构提出了一种量化的性能评估模型。该模型建立在抽象GPU体系结构和执行模型的基础上,充分考虑了影响GPGPU程序性能的各种因素(如全局存储器的接合访问、局部存储器的冲突访问、计算与存储访问重叠、条件分支转移、同步),在无需编写实际GPGPU程序的前提下,通过对应用程序的静态分析并结合GPU的性能参数设定具体的执行配置,即可估算出应用程序并行化后的执行时间。实验结果表明,该性能模型能够较为准确地评估应用程序在GPU体系结构上的执行时间。 (2)在GPU体系结构的存储系统中,全局存储器容量较大但访问延迟较高,快速存储器(如局部存储器)访问速度较快但容量有限。因此,改善数据在全局存储器中的布局,减少不规则存储访问,合理利用片上快速存储器,减少总体的存储访问开销对于提升GPGPU程序的性能至关重要。为了充分发挥GPU体系结构在存储带宽方面的优势,本文提出了基于多面体模型的存储优化方法。该方法建立源程序的多面体表示,分别对GPU的全局存储器和快速存储器进行优化与分配:通过检测存储访问模式,发掘可向量化的存储访问实例,利用数据空间变换对不规则存储访问模式进行转换,提高了GPU片外存储器的带宽利用率;通过检测程序中的数据重用,根据数据的访问属性和GPU存储器硬件的特性,实现了快速存储器的有效分配;采用坐标转换和增加偏移量的技术分别对IMAGE存储对象和局部存储器进行优化,提高了片上存储器的使用效率。实验结果表明,该存储优化方法可以使得程序的性能相对优化前提升1.2-8.4倍。 (3)循环和数组结构通常具有计算密集和数据并行的特征,因此这种结构通常是GPU计算核心的天然候选。然而在一些应用程序中,数据依赖和控制相关阻碍了它们在GPU体系结构上高效地运行。由于GPU体系结构同时强调计算密集与数据并行,因此将计算重构和数据重构加以组合更能够充分开发其性能潜力。为了使应用程序能够充分开发GPU体系结构的性能潜力,本文提出了面向GPU体系结构的程序重构方法:首先通过循环合并与拆分的计算重构增大了应用程序的可并行性,尽可能消除操作间的依赖关系,提高所生成GPU计算核心的计算密集性,有利于存储访问延迟的隐藏;其次,通过对线程内和线程问的数据访问进行重构,减少了GPU计算核心的存储访问次数;最后,通过条件执行、分支化简和间接索引等重构技术,减少了分支转移对于程序性能的负面影响。实验结果表明,该程序重构方法可以使得程序性能相对重构前提升1.18-2.56倍。 (4)数据并行应用中的非计算密集型算法存在存储墙问题,在基于GPU的并行化过程中显得更为突出。为了有效缓解存储受限型应用的存储墙问题,本文针对生物序列比对领域设计了一种基于GPU的Smith-Waterman并行算法:通过改变原有Smith-Waterman算法的计算流程和数据依赖关系,进一步增加了序列比对的并行性;通过实施面向GPU体系结构的优化方法,进一步提升了序列比对的性能和效率。实验结果表明,经过优化的Smith-Waterman算法与CPU上的串行算法相比提升了近115倍。 本文在众核GPU体系结构上的研究成果对今后在GPU上开发通用计算及面向其他众核体系结构的优化编译器方面具有借鉴意义。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李金良;日本正准备制造数据流计算机[J];计算机工程与设计;1983年04期
2 惠毓明;;CONVEX C-1小巨型计算机的体系结构[J];计算机研究与发展;1988年12期
3 郭仲伟,张燕云,肖田元;计算机集成制造系统(CIMS)的体系结构、模型与方法[J];管理科学学报;1994年01期
4 倪鹏云;对开放系统互联OSI有关重要概念的分析[J];计算机工程与科学;1994年04期
5 江芳泽,李昕;现场总线体系结构的研究[J];自动化仪表;1996年03期
6 尚明,李晶;Internet网络体系结构及其应用资源[J];术语标准化与信息技术;1996年03期
7 Markus Levy;;微机体系结构主宰芯片集的特性[J];电子设计技术;1997年05期
8 王晨;;Bay副总裁“泄密” 交换路由集一芯片[J];每周电脑报;1997年35期
9 ;TI方案端口多[J];每周电脑报;1997年49期
10 曲润涛,彭健,杜秀华,冯为民;基于CIPS体系结构的信息模型的实现[J];化工自动化及仪表;1998年02期
11 黄文化;;中国建设银行国际结算系统体系结构设计简介[J];金融电子化;1999年03期
12 李洁,赵恒永,郭军杰;总线型企业信息系统体系结构设计及应用[J];计算机工程与设计;2000年06期
13 潘克修;;远程自动抄表系统及其通信方式[J];军事通信技术;2001年03期
14 孙昌爱,金茂忠,刘超;软件体系结构研究综述[J];软件学报;2002年07期
15 张卫,吴慧中;虚拟样机概念及体系结构研究[J];组合机床与自动化加工技术;2002年10期
16 陈克胜;从C/S到B/S——网络体系结构的演变[J];中国电子商务;2002年05期
17 李俊春,晏林勇;医疗保险信息系统体系结构设计方法初探[J];宜春学院学报;2003年04期
18 史海波,马玉林,刘爱国;冶金冷轧薄板企业生产计划调度体系结构及方法研究[J];信息与控制;2004年01期
19 彭小平,陈广辉,何方白;3G的开放性研究[J];电信快报;2004年07期
20 孙国梓,郁鼎文,吴志军;基于产品结构与配置管理为核心的PDM体系结构[J];计算机工程;2004年16期
中国重要会议论文全文数据库 前10条
1 王宇;程小辉;;基于移动agent虚拟仪器系统体系结构研究[A];第三届全国虚拟仪器大会论文集[C];2008年
2 徐海;韩宇;孙永兵;韦水生;邓庆绪;于戈;;基于软硬件联合设计的嵌入式实时数据库体系结构[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 萧蕴诗;武广;徐立鸿;;复杂信息系统集成方法及其在智能建筑中的应用研究[A];1998中国控制与决策学术年会论文集[C];1998年
4 魏定国;;试论企业级数据传输体系结构[A];1998中国控制与决策学术年会论文集[C];1998年
5 董永贵;董恩生;贾惠波;;生物启发仪器的体系结构及实现技术[A];第二届全国信息获取与处理学术会议论文集[C];2004年
6 苗宇;程荫杭;张超;;室外自主轮式移动机器人的发展及关键技术[A];可持续发展的中国交通——2005全国博士生学术论坛(交通运输工程学科)论文集(下册)[C];2005年
7 刘仲英;胡衍强;胡斌;;物流公共信息平台的体系结构研究[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
8 李劲;;综合射频传感器的开放式系统结构[A];中国雷达行业协会航空电子分会暨四川省电子学会航空航天专委会学术交流会论文集[C];2005年
9 王瑜;孟涛;相敬林;夏靖波;;一种应用于Ad hoc网络管理的分簇算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
10 蔡京平;贾云得;;星球探测机器人分布式计算系统体系结构研究[A];中国宇航学会深空探测技术专业委员会第一届学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 陈钢;众核GPU体系结构相关技术研究[D];复旦大学;2011年
2 王醒策;基于强化学习和群集智能方法的多机器人协作协调研究[D];哈尔滨工程大学;2005年
3 李治军;美韩同盟与东亚安全:一种结构主义理论的分析[D];复旦大学;2008年
4 杨建宇;基于组件的分布式地理信息服务研究[D];中国科学院研究生院(遥感应用研究所);2005年
5 董艇舰;基于开放结构数控系统引导型二次开发仿真平台构建研究[D];天津大学;2005年
6 孟宪松;多水下机器人系统合作与协调技术研究[D];哈尔滨工程大学;2006年
7 耿文莉;中国林产工业企业管理信息化问题研究[D];东北林业大学;2007年
8 夏绪辉;逆向供应链的体系结构及其物流关键技术研究[D];重庆大学;2003年
9 林川;基于立体跨层体系结构无线传感器网络的能量问题研究[D];武汉大学;2007年
10 严勇杰;多机器人系统协调与控制研究[D];哈尔滨工程大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘丹;基于GPU的分子动力学模拟方法研究[D];武汉理工大学;2010年
2 陈枫;基于GPU技术的叠前时间偏移及其在玛湖地区的应用[D];中国地质大学(北京);2011年
3 覃方涛;基于GPU的车牌定位关键技术并行研究[D];重庆大学;2010年
4 魏卓群;GPU并行免疫算法在冷轧生产调度中的应用[D];大连理工大学;2010年
5 金鹭;基于GPU的表面形貌测量系统的研究[D];浙江大学;2011年
6 常武;三层分布式PACS体系结构的研究与实现[D];北京工业大学;2001年
7 王征;现场总线通信技术的研究与实现[D];大庆石油学院;2004年
8 屈红军;基于网关安全平台的虚拟线程体系结构[D];华中科技大学;2004年
9 白玉;基于供应链的采购管理系统研究[D];河北工业大学;2005年
10 朱健松;一种基于RISC及DSP双内核集成芯片系统的研究[D];广东工业大学;2005年
中国重要报纸全文数据库 前10条
1 四川 陈路;浅谈网格的典型体系结构[N];电子报;2008年
2 ;电联关注面向用户基于业务的体系结构[N];人民邮电;2001年
3 安烨;企业门户的特点及体系结构[N];网络世界;2001年
4 ;诠释智能理念 奠基存储未来[N];计算机世界;2003年
5 刘钝;我国研究成果对新一代互联网体系结构产生重大影响[N];大众科技报;2007年
6 ;思科演示IP网络体系结构[N];中国电子报;2000年
7 ;新砖瓦精装新数据中心[N];网络世界;2006年
8 彭芳;更新ASIC体系结构[N];中国计算机报;2001年
9 李贵林;瑞星:网络杀毒取决于体系结构[N];计算机世界;2002年
10 憨墨;构画20世纪出版学的体系结构[N];中华读书报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978