高效能计算型存储器体系结构关键技术研究与实现
【摘要】:高性能计算是信息产业的重要领域,在科学研究和国民经济的各个方面均有着极其广泛的应用前景。“主处理器+协处理器”的混合计算体系结构以其独特的效能优势已经成为高性能计算机系统体系结构的重要发展趋势之一。然而,面向混合计算的高性能计算协处理器设计目前仍然存在由于有限的片外存储带宽和片上通信带宽而导致处理器实际性能发挥受限,效能不高等问题,面临着“存储墙”、“功耗墙”、并行编程以及核间通信等挑战。
针对这些问题与挑战,本文从平衡系统设计角度出发,以存储带宽平衡和通信带宽平衡为重点,以高效能为目标,提出了一种将嵌入式动态随机存储器(eDRAM)技术、片上网络通信技术与多核技术有效融合的计算型存储器体系结构。计算型存储器采用经典存储器芯片的接口方式,以具有高性能并行计算能力和大存储容量的协处理器形态出现,采用异构多核SIMD结构针对计算密集型应用进行计算加速,可与主流的Intel,AMD等商用处理器有效协同、共享存储,实现一种更加高效的混合计算体系结构的高性能计算机系统。
围绕高效能计算型存储器的存储系统设计、计算内核设计以及片上通信网络设计等重点内容,本文系统深入地研究并解决了计算型存储器体系结构和设计实现中的系列核心理论与科学技术问题。
为了满足协处理器对存储器访存带宽的需求,本文深入研究了存储系统对处理器实际性能的影响,采用存储器-处理器片上集成的技术方案,提出了一种软/硬件协同管理的计算型存储器存储系统层次结构和一种具有高速缓存功能的新型eDRAM结构。片上eDRAM存储密度高,存储总线位宽大,访存延迟小,有效提高了协处理器的存储带宽。
根据计算型存储器面向的高性能计算应用领域,本文研究并提出了一种高性能计算内核体系结构。计算内核采用流水线纵向向量处理技术和功能单元子字并行技术,对应用中的大量数据并行处理进行了充分支持。针对经典SIMD结构无法有效处理并行条件分支的不足,计算内核实现了并行条件分支执行技术,具有自主执行复杂嵌套控制结构的能力。多个计算内核自主并行地执行分支控制,极大提高了搜索类应用的程序执行性能。
根据高性能计算应用中的数据通信需求,针对Mesh网络跳步通信次数多、网络通信延迟长等不足,本文在经典Mesh网络结构基础上,增加具有广播和数据并行置换通信功能的BPN网络,提出了一种模块化和层次化的BP-Mesh片上网络体系结构,具有高带宽、低延迟、可扩展、控制灵活等特点。本文采用电路交换技术实现了BP-Mesh网络,并建立了BP-Mesh网络的面积开销模型、通信延迟模型以及能耗模型。实验结果表明:所提出的BP-Mesh片上网络结构简单,有效提高了网络通信带宽,显著减少了网络通信跳步次数和网络通信延迟,并有效降低了片上网络通信功耗。
为了有效对计算型存储器的计算资源和存储资源进行分配和调度,本文提出了—种计算与访存显式并行的并行编程模型ECMP,不仅有利于并行程序的开发,而且有利于提高计算型存储器的硬件资源利用率和存储带宽利用率,提高程序的执行性能。
最后,本文基于UMC0.18μmCMOS工艺设计实现了一款四核计算型存储器原型芯片ESCA,并在所开发的软件环境下,对计算型存储器体系结构进行了全面深入的性能和效能分析。实验结果表明:与其他高性能计算协处理器相比,本文所提出的计算型存储器硬件利用率高,具有较好的计算效率和效能优势。