收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

FPGA矩阵计算并行算法与结构

邬贵明  
【摘要】:可重构计算是一种基于定制硬件实现的计算形式,现场可编程门阵列(FPGA)便是典型的可重构计算平台。近年来,FPGA芯片集成了越来越多的硬件资源,提供了强大的计算能力,可重构计算领域已渐渐步入可重构超级计算的时代。矩阵计算是科学和工程应用的核心问题,FPGA可重构计算系统在加速矩阵计算方面具有巨大的潜力。然而,FPGA实现矩阵计算还面临着硬件编程、并行算法设计、硬件结构优化等挑战,已有的矩阵计算硬件结构占用了大量FPGA资源、存储需求太高、带宽需求过大,可扩展性也很差。 为应对这些问题和挑战,本文对矩阵计算的FPGA实现技术进行了深入的研究。本文的主要工作和创新点如下: (1)提出了面向基本矩阵运算的FPGA设计方法和高性能、高存储效率分块矩阵乘并行结构。以矩阵向量乘和矩阵乘为例,研究了矩阵计算FPGA实现技术中的时空映射和模型构建方法,实验评测验证了这两种基本矩阵运算并行结构的自动生成框架。利用包括循环分块在内的一系列变换和优化,推导出数据传输优化、存储优化的分块矩阵乘并行算法,得到了一种能够处理任意数据规模矩阵的高性能、高存储效率的矩阵乘并行结构。实验结果表明该并行结构优于相关工作,且存储需求从O(b2)降到了O(b),b为数据块大小。 (2)提出了FPGA列选主元LU分解细粒度流水线并行算法和实现该算法的线性阵列。提出的并行算法能够充分开发LU分解中的流水线并行和数据重用,可以扩展到下三角方程组求解和多右端项的线性方程组求解问题。本文提出了FPGA全硬件实现稠密线性方程组求解的并行结构,结构的核心是实现该并行算法的线性阵列,线性阵列可以同时实现列选主元LU分解和下三角方程组求解。本文还给出了该并行结构的性能模型,从而可以更好地分析和预测其性能。实验结果表明该并行结构优于相关工作和通用处理器的软件实现。 (3)提出了FPGA分块稠密矩阵分解的并行算法和并行结构。以不选主元LU分解为例,提出了一种分而治之的稠密矩阵分解分块策略和FPGA实现方法。该策略对串行LU分解应用包括循环分块、时空映射在内的一系列变换,推导出能够处理任意规模矩阵的分块LU分解并行算法。主要思想是把LU分解算法分解成细粒度计算任务,细粒度任务能够直接映射到FPGA实现的线性阵列,这些任务按照正确的顺序在线性阵列上执行。提出了实现该算法的高性能、高存储效率分块LU分解并行结构。与需要两组线性阵列的结构相比,该结构仅需要一组线性阵列,且存储需求从O(b2)降到了O(b),b为数据块大小。本文还把该分块策略和实现方法扩展到了多FPGA系统,并应用到Cholesky分解。实验结果表明,提出的并行结构计算效率高于通用处理器。 (4)提出了两种稀疏矩阵LU分解并行算法和实现这些算法的并行结构。稀疏矩阵LU分解的数值计算是直接法求解稀疏线性方程组过程中最耗时的一部分,本文提出了两种稀疏矩阵LU分解并行算法:Right-Looking (RL) LU分解并行算法和Left-Looking (LL) LU分解并行算法。前者能够通过开发分解因子的数据重用来减少数据传输,后者能够通过动态相关性检测来开发更多的并行性;两种算法对应的并行结构都能够动态生成分解因子的数据结构。实验结果表明,LL LU分解的并行结构的性能优于RL LU分解的并行结构和通用处理器的软件实现。 (5)提出了新颖的稀疏矩阵向量乘(SpMV)并行结构和共轭梯度法(CG)并行结构。迭代法的计算量往往都集中在处理SpMV,本文对SpMV并行结构进行了深入的研究,并应用到了CG的FPGA实现。提出了一种适合于FPGA设计的稀疏矩阵分块方法和存储格式,基于该存储格式的SpMV并行结构可以有效处理任意大型稀疏矩阵。与相关工作相比,本文提出的两种高效的SpMV并行结构无需改变任何设计参数便可以处理任意矩阵,其中一种结构可以有效减少零的填充。实验结果表明,提出的SpMV并行结构的性能优于相关工作和通用处理器的软件实现;提出的CG并行结构的性能也优于通用处理器的软件实现。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郭军;笹尾勤;;入侵检测中模式匹配算法的FPGA实现[J];系统仿真学报;2007年14期
2 邬贵明;窦勇;王淼;;Cholesky分解细粒度并行算法[J];计算机工程与科学;2010年09期
3 袁海洋;江先阳;刘锋;王高峰;;应用于ROHC的CRC算法硬件实现[J];微电子学;2011年05期
4 陈玉泉;一种并行CRC算法的实现方法[J];现代电子技术;2005年22期
5 张雪芹,林家骏,吴超;基于FPGA的遗传算法的实现[J];计算机工程;1999年09期
6 徐琳;李晓民;谭光明;刘新春;卜东波;冯圣中;孙凝晖;;面向FPGA的RNA二级结构预测并行算法研究[J];计算机学报;2006年02期
7 周杰;陈啸洋;赵建勋;窦勇;;大矩阵QR分解的FPGA设计与实现[J];计算机工程与科学;2010年10期
8 肖传伟;周怀得;李志慧;郝志航;;多DSP智能相机的设计[J];微计算机信息;2006年17期
9 贺卫东;段哲民;龚诚;;基于FPGA的大点数FFT算法研究[J];电子测量技术;2007年11期
10 江洁;邓珏琼;张广军;周富强;;光条纹中心的实时快速提取[J];光学技术;2008年02期
11 宋阳;章晓燕;;基于片上多核的H.264编码的并行加速性研究[J];计算机时代;2011年04期
12 马安仁;党存禄;李均国;樊省全;;改进的并行积分算法低通滤波器的FPGA设计[J];兰州理工大学学报;2006年06期
13 黄茂祥;刘允才;;基于FPGA的快速红外光斑检测[J];微型电脑应用;2010年10期
14 张大鹏,陈骏林;图象处理并行算法分析及其实现[J];宇航学报;1989年02期
15 贺瑞容,吴恩华;物理场图形生成的多处理机并行算法的研究和实现[J];计算机学报;1992年01期
16 曾泳泓,蒋增荣;GFT及离散卷积的并行算法及其实现[J];数值计算与计算机应用;1993年01期
17 张可军;陈福接;;求解线性丢番图方程(组)的串、并行算法[J];计算机工程与科学;1993年01期
18 朱和;李晓梅;;计算几何与并行算法[J];计算机工程与科学;1993年03期
19 杨克复;;并行处理技术[J];沈阳理工大学学报;1993年01期
20 徐京晶;最先进的10万门现场可编程门阵列(FPGAs)[J];微处理机;1996年03期
中国重要会议论文全文数据库 前10条
1 侯金华;;基于FPGA的SOC系统可靠性设计[A];2011中国电工技术学会学术年会论文集[C];2011年
2 张健;孙辉先;陈晓敏;安军社;;反熔丝FPGA的可靠性设计措施[A];第二十三届全国空间探测学术交流会论文摘要集[C];2010年
3 ;Design and Research of Video Fire Detection System Based on FPGA[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
4 董雪;费建军;白娇杨;;基于FPGA的智能火灾报警系统的设计与研究[A];天津市电视技术研究会2012年年会论文集[C];2012年
5 肖松;李跃华;张金林;;基于FPGA局部动态可重构的抗SEU容错系统研究[A];教育部中南地区高等学校电子电气基础课教学研究会第二十届学术年会会议论文集(下册)[C];2010年
6 王玮;钱伟康;应怀樵;;基于FPGA的PXI高速数据采集系统硬件设计[A];现代振动与噪声技术(第九卷)[C];2011年
7 钱伟康;梁利娟;王丽丽;;一种基于FPGA的CAN总线船舶监控系统[A];全国第三届信号和智能信息处理与应用学术交流会专刊[C];2009年
8 杨学友;叶振忠;刘常杰;李博文;;一种高速智能化视觉传感器设计[A];第三次全国会员代表大会暨学术会议论文集[C];2002年
9 鲁艳;雷维嘉;谢显中;;基于Avalon接口的交织编码技术的FPGA实现[A];2010年通信理论与信号处理学术年会论文集[C];2010年
10 许超;肖铁;施柏鑫;;基于FPGA的电子内窥镜视频处理系统[A];全国第二届信号处理与应用学术会议专刊[C];2008年
中国博士学位论文全文数据库 前10条
1 邬贵明;FPGA矩阵计算并行算法与结构[D];国防科学技术大学;2011年
2 周杰;合成孔径雷达数据处理应用的细粒度并行算法与结构[D];国防科学技术大学;2010年
3 张承畅;多FPGA系统的关键问题及应用研究[D];重庆大学;2011年
4 李鹏;基于元构件的FPGA硬件构件设计技术研究[D];解放军信息工程大学;2011年
5 余慧;时分交换的新型FPGA互连结构研究[D];复旦大学;2011年
6 谢丁;FPGA互连结构评估系统研究与实现[D];复旦大学;2011年
7 王忠明;SRAM型FPGA的单粒子效应评估技术研究[D];清华大学;2011年
8 廖永波;SOC软硬件协同方法及其在FPGA芯片测试中的应用研究[D];电子科技大学;2010年
9 唐玉兰;伪布尔可满足性算法及其在FPGA布线中的研究应用[D];江南大学;2010年
10 王建庄;基于FPGA的高速图像处理算法研究及系统实现[D];华中科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 邓文坛;基于FPGA实现的粒子滤波算法研究[D];北京交通大学;2008年
2 周志娟;相移波束形成的FPGA实现[D];哈尔滨工程大学;2011年
3 许冲;激光脉冲定距算法研究与FPGA实现[D];哈尔滨工业大学;2011年
4 叶忠彬;基于FPGA的数字频率合成系统的设计与实现[D];电子科技大学;2011年
5 彭涵阳;无串扰超声测距系统的激励方法及基于FPGA的设计与实现[D];天津大学;2010年
6 杜国女;基于FPGA的音乐景观灯的设计与实现[D];兰州交通大学;2011年
7 隆志远;基于FPGA和光电耦合的旋转机械非接触双向信号传输系统[D];南京航空航天大学;2010年
8 袁臻;电动多叶光栅通讯部分的FPGA实现[D];上海交通大学;2009年
9 刘开健;基于FPGA的实时图像处理系统的设计与实现[D];昆明理工大学;2008年
10 刘钰力;基于FPGA的SHA256高效数字加密系统[D];兰州大学;2011年
中国重要报纸全文数据库 前10条
1 海英;赛灵思发布新型FPGA芯片方案[N];人民邮电;2009年
2 ;实现FPGA产品差异化[N];中国电子报;2011年
3 ;FPGA为消费电子提供安全保证[N];中国电子报;2011年
4 本报记者 赵艳秋 冯晓伟 冯健;FPGA:市场应用广 门槛需降低[N];中国电子报;2009年
5 本报记者 冯晓伟;FPGA格局难改 新兴企业胜算几何?[N];中国电子报;2009年
6 ;异步架构FPGA实现业界最高速度[N];中国电子报;2009年
7 ;突破功耗和成本限制设计中国需要的FPGA[N];中国电子报;2009年
8 ;通信仍是FPGA最大市场[N];中国电子报;2009年
9 本报记者 梁红兵;赛灵思:降低FPGA应用门槛[N];中国电子报;2010年
10 华北光电技术研究所 刘刚;FPGA+DSP升级热像设计[N];中国电子报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978