收藏本站
收藏 | 论文排版

基于FPGA集群的浮点矩阵乘加速研究

杜记伟  
【摘要】:在大数据和云计算的时代背景下,高性能计算(HPC)的数据密集度越来越高,需要处理的数据量与日俱增,要求计算节点有很强的计算能力的同时功耗开销尽可能低,因此一些具有高灵活性和容错能力的软件编程架构在服务器集群被部署,它们具有很好的扩展性和很高的计算效率。然而新兴应用的快速发展正日渐加重计算节点的负载,HPC也开始转向采用硬件加速器来满足高带宽、低时延、高吞吐量的需求,同时保持合理的功耗水平。因此在HPC的计算节点中部署硬件加速器以集群的方式对复杂算法加速成为当下研究的热点。在先前研究基础之上,本文提出了一种基于FPGA的硬件加速平台架构,采用集中式加速器群来处理大规模的浮点矩阵运算。这种架构由多块Xilinx Virtex-6FPGA评估板(EVBs)组成,计算服务器与EVBs通过PCIE接口连接,EVBs之间通过14GB/s光纤接口通信。利用FPGA的可编程性和高灵活性,在每个EVBs中设计了相同的offload引擎模块,实现了对短信息立即数MP描述符的存储、计算、封装、转发等处理。本文在分析浮点矩阵乘算法和FPGA集群架构的基础之上,通过Verilog硬件编程设计实现了可并行计算的浮点矩阵乘硬件模块,该设计降低了计算复杂度和资源利用率且提升了计算效率。该模块可以任意配置两个浮点矩阵乘的行列参数,并且可以根据芯片的逻辑资源情况灵活的设置计算单元(PE)的数目,且相邻PE单元之间没有任何数据的交互,具有很好的移植性和可扩展性。针对本文浮点矩阵乘法的FPGA协处理器与计算节点CPU的通信问题,本文设计了通过PCIE高速接口实现报文的接收和转发。将基于片上可编程系统结构的FPGA端设计与计算节点主机端的驱动程序相结合,从而实现软硬件系统的协同工作。针对本文设计的OE模块及其浮点矩阵乘子模块,文中分别通过实验仿真、综合等方法对设计的性能进行了分析和验证。对比了Intel I5-4690 CPU和相同处理单元下的单卡FPGA计算性能,实验结果表明,本文设计的加速平台获得较好的性能增益,且该设计具有良好的并行效率和计算效率。此外,本文对不同维数的浮点矩阵乘法进行了加速对比实验,该设计达到了较高的计算性能,获得了接近2倍加速比。


知网文化
【相似文献】
中国期刊全文数据库 前18条
1 张东;梅涛;;一种高效的浮点上下文切换算法[J];科技风;2017年02期
2 潘宇峰;李沫;;老宅重生 禅隐意境[J];缤纷;2016年Z2期
3 万浮尘;潘宇峰;高红;;当代结庐草堂——浮点禅·隐客栈[J];国际纺织品流行趋势;2016年03期
4 ;ADI公司扩展SHARC浮点DSP产品系列[J];单片机与嵌入式系统应用;2010年06期
5 秦瑞杰,李文全,林君;一种新颖的瞬时浮点放大器[J];航空计测技术;1997年04期
6 孙成明;;A/D转换的浮点方法[J];微计算机应用;1987年05期
7 许志云;;一种新型网络一浮点双代号网络[J];优选与管理科学;1987年02期
8 范懋基;王毅;;快速移位运算器[J];微计算机应用;1988年02期
9 成赞;TI公司最新推出第三代超高速单片浮点信号处理器TMS320C30[J];计算机应用研究;1989年03期
10 张雷;张军;;浮点超级电脑IMST800[J];集成电路应用;1989年02期
11 宋德群;;工资程序中计算各种票值张数的方法[J];财务与会计;1989年09期
12 刘鸿瑾;张铁军;侯朝焕;;浮点乘法器中的舍入方法研究[J];计算机工程与应用;2006年27期
13 何军;田增;郭勇;陈诚;;浮点乘加部件延迟对浮点性能影响的研究[J];计算机工程;2013年07期
14 杨靓,徐炜,黄士坦;FPGA上浮点加/减法器的设计[J];计算机工程与应用;2003年02期
15 冬冬;;超酷五件套[J];数字化用户;2002年02期
16 许瑾晨;郭绍忠;黄永忠;王磊;周蓓;;浮点数学函数异常处理方法[J];软件学报;2015年12期
17 王永;夏宏;;高性能浮点乘法的设计[J];中国电力教育;2007年S3期
18 王俊;文延华;漆锋滨;;一种关于浮点乘加的测试方法[J];计算机工程与应用;2006年05期
中国重要会议论文全文数据库 前10条
1 闵银皮;倪晓强;邢座程;;多线程向量浮点部件的验证方法[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(A辑)[C];2011年
2 邰强强;倪晓强;张民选;;基于浮点融合乘加部件的前导零预测与检测方法研究[A];第十六届计算机工程与工艺年会暨第二届微处理器技术论坛论文集[C];2012年
3 刘功杰;刘蓬侠;;浮点定点转化指令的微流水线实现[A];第二十届计算机工程与工艺年会暨第六届微处理器技术论坛论文集[C];2016年
4 刘功杰;刘蓬侠;;浮点倒数类指令执行部件的逻辑设计[A];第二十届计算机工程与工艺年会暨第六届微处理器技术论坛论文集[C];2016年
5 陈博文;郭琦;沈海华;;浮点乘加部件的自动化形式验证[A];第六届中国测试学术会议论文集[C];2010年
6 谢启华;倪晓强;李少青;刘荣华;张民选;;高性能浮点融合乘加部件中加法/前导零预测器的流水设计[A];第十六届计算机工程与工艺年会暨第二届微处理器技术论坛论文集[C];2012年
7 赵芮;雷元武;彭元喜;孙永节;;SIMD浮点乘加部件的设计与验证[A];第十七届计算机工程与工艺年会暨第三届微处理器技术论坛论文集(下册)[C];2013年
8 李红军;姜娇蕊;;自定制精度浮点FFT处理器的FPGA实现[A];全国第一届嵌入式技术联合学术会议论文集[C];2006年
9 吴铁彬;刘衡竹;杨惠;张剑锋;侯申;;一种快速SIMD浮点乘加器的设计与实现[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(B辑)[C];2011年
10 王碧文;彭元喜;杨惠;吴铁彬;;一种FA的设计与验证[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(A辑)[C];2011年
中国博士学位论文全文数据库 前4条
1 陆飞;基于浮点坐标系的图像处理方法及应用研究[D];浙江工业大学;2016年
2 刘鑫;宽带图像声纳高速浮点信号处理技术研究[D];哈尔滨工程大学;2014年
3 姜浩;高精度可靠浮点计算及舍入误差分析研究[D];国防科学技术大学;2013年
4 陈立前;基于区间线性抽象域的可靠浮点及非凸静态分析[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 常晓阳;几类特殊函数的赋值分析研究[D];华东师范大学;2018年
2 车文博;32位高性能M-DSP浮点MAC单元的设计优化与验证[D];国防科学技术大学;2016年
3 朱保周;低误差浮点基本函数计算的算法研究与设计[D];国防科学技术大学;2017年
4 杜记伟;基于FPGA集群的浮点矩阵乘加速研究[D];国防科学技术大学;2017年
5 高英华;可配置的二维浮点FFT8192 ASIC设计[D];华中科技大学;2016年
6 张洁;高性能微处理器浮点乘加单元的研究[D];国防科学技术大学;2016年
7 凌智强;支持并行整数乘的双通路浮点融合乘加结构的研究与实现[D];国防科学技术大学;2006年
8 邓凯伟;高性能X处理器浮点部件的实现和优化[D];国防科学技术大学;2015年
9 姜加红;面向浮点C程序的区间分析方法[D];国防科学技术大学;2012年
10 靳战鹏;高速浮点加法运算单元的研究与实现[D];西北工业大学;2006年
中国重要报纸全文数据库 前10条
1 上海 小易;NVIDA下一代构架Volta曝光[N];电子报;2017年
2 Rob Verger 陈亚地;超级计算机的太空考验[N];北京科技报;2017年
3 广西 姑苏飘雪;“呼唤”渲染世界真色彩[N];电脑报;2004年
4 本报记者 桂运安;探秘“魂芯二号A”[N];安徽日报;2018年
5 斯诺;PC按谁的规则玩[N];中国经营报;2001年
6 本报记者  宋家雨;变一周为十三个小时[N];网络世界;2006年
7 中国计算机报测试实验室 王炳晨;1GHz CPU为谁而来?[N];中国计算机报;2001年
8 ;IBM“蓝色基因”堪称梦幻[N];中国计算机报;2003年
9 ;CPU选购新概念[N];中国电脑教育报;2002年
10 钱江;浙江景宁工程中标者少1元胜出[N];建筑时报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978