收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

FPGA矩阵计算并行算法与结构

邬贵明  
【摘要】:可重构计算是一种基于定制硬件实现的计算形式,现场可编程门阵列(FPGA)便是典型的可重构计算平台。近年来,FPGA芯片集成了越来越多的硬件资源,提供了强大的计算能力,可重构计算领域已渐渐步入可重构超级计算的时代。矩阵计算是科学和工程应用的核心问题,FPGA可重构计算系统在加速矩阵计算方面具有巨大的潜力。然而,FPGA实现矩阵计算还面临着硬件编程、并行算法设计、硬件结构优化等挑战,已有的矩阵计算硬件结构占用了大量FPGA资源、存储需求太高、带宽需求过大,可扩展性也很差。 为应对这些问题和挑战,本文对矩阵计算的FPGA实现技术进行了深入的研究。本文的主要工作和创新点如下: (1)提出了面向基本矩阵运算的FPGA设计方法和高性能、高存储效率分块矩阵乘并行结构。以矩阵向量乘和矩阵乘为例,研究了矩阵计算FPGA实现技术中的时空映射和模型构建方法,实验评测验证了这两种基本矩阵运算并行结构的自动生成框架。利用包括循环分块在内的一系列变换和优化,推导出数据传输优化、存储优化的分块矩阵乘并行算法,得到了一种能够处理任意数据规模矩阵的高性能、高存储效率的矩阵乘并行结构。实验结果表明该并行结构优于相关工作,且存储需求从O(b2)降到了O(b),b为数据块大小。 (2)提出了FPGA列选主元LU分解细粒度流水线并行算法和实现该算法的线性阵列。提出的并行算法能够充分开发LU分解中的流水线并行和数据重用,可以扩展到下三角方程组求解和多右端项的线性方程组求解问题。本文提出了FPGA全硬件实现稠密线性方程组求解的并行结构,结构的核心是实现该并行算法的线性阵列,线性阵列可以同时实现列选主元LU分解和下三角方程组求解。本文还给出了该并行结构的性能模型,从而可以更好地分析和预测其性能。实验结果表明该并行结构优于相关工作和通用处理器的软件实现。 (3)提出了FPGA分块稠密矩阵分解的并行算法和并行结构。以不选主元LU分解为例,提出了一种分而治之的稠密矩阵分解分块策略和FPGA实现方法。该策略对串行LU分解应用包括循环分块、时空映射在内的一系列变换,推导出能够处理任意规模矩阵的分块LU分解并行算法。主要思想是把LU分解算法分解成细粒度计算任务,细粒度任务能够直接映射到FPGA实现的线性阵列,这些任务按照正确的顺序在线性阵列上执行。提出了实现该算法的高性能、高存储效率分块LU分解并行结构。与需要两组线性阵列的结构相比,该结构仅需要一组线性阵列,且存储需求从O(b2)降到了O(b),b为数据块大小。本文还把该分块策略和实现方法扩展到了多FPGA系统,并应用到Cholesky分解。实验结果表明,提出的并行结构计算效率高于通用处理器。 (4)提出了两种稀疏矩阵LU分解并行算法和实现这些算法的并行结构。稀疏矩阵LU分解的数值计算是直接法求解稀疏线性方程组过程中最耗时的一部分,本文提出了两种稀疏矩阵LU分解并行算法:Right-Looking (RL) LU分解并行算法和Left-Looking (LL) LU分解并行算法。前者能够通过开发分解因子的数据重用来减少数据传输,后者能够通过动态相关性检测来开发更多的并行性;两种算法对应的并行结构都能够动态生成分解因子的数据结构。实验结果表明,LL LU分解的并行结构的性能优于RL LU分解的并行结构和通用处理器的软件实现。 (5)提出了新颖的稀疏矩阵向量乘(SpMV)并行结构和共轭梯度法(CG)并行结构。迭代法的计算量往往都集中在处理SpMV,本文对SpMV并行结构进行了深入的研究,并应用到了CG的FPGA实现。提出了一种适合于FPGA设计的稀疏矩阵分块方法和存储格式,基于该存储格式的SpMV并行结构可以有效处理任意大型稀疏矩阵。与相关工作相比,本文提出的两种高效的SpMV并行结构无需改变任何设计参数便可以处理任意矩阵,其中一种结构可以有效减少零的填充。实验结果表明,提出的SpMV并行结构的性能优于相关工作和通用处理器的软件实现;提出的CG并行结构的性能也优于通用处理器的软件实现。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郭军;笹尾勤;;入侵检测中模式匹配算法的FPGA实现[J];系统仿真学报;2007年14期
2 邬贵明;窦勇;王淼;;Cholesky分解细粒度并行算法[J];计算机工程与科学;2010年09期
3 邓路宽;李双勋;程翥;皇甫堪;;多级嵌套维纳滤波器中协方差矩阵计算的FPGA实现[J];电子技术应用;2007年05期
4 袁海洋;江先阳;刘锋;王高峰;;应用于ROHC的CRC算法硬件实现[J];微电子学;2011年05期
5 陈玉泉;一种并行CRC算法的实现方法[J];现代电子技术;2005年22期
6 肖传伟;周怀得;李志慧;郝志航;;多DSP智能相机的设计[J];微计算机信息;2006年17期
7 徐京晶;最先进的10万门现场可编程门阵列(FPGAs)[J];微处理机;1996年03期
8 ;Xilinx免费WEB设计工具增加FPGA支持[J];世界电子元器件;2000年11期
9 罗剑波,姜伟;一种基于FPGA技术的高频疲劳试验机控制器的研制[J];电子工程师;2001年09期
10 Xilinx Inc.Amit Dhir;FPGA推动无线局域网发展[J];电子产品世界;2002年22期
11 Saeid Mousavi,Stephen Cheng;平台FPGA架构用于复杂嵌入式系统[J];今日电子;2002年06期
12 黄莺;Xilinx:创新求变 逆风飞扬[J];世界电子元器件;2002年09期
13 胡玲娜,张小军,邓鸿威;基于SYSTEM C的FPGA设计方法[J];今日电子;2003年12期
14 彭飞,赵继勇;基于FPGA的全数字低中频QPSK调制解调器实现[J];电子设计应用;2003年09期
15 Ken O'Neill;降低单事件辐射对卫星用FPGA的影响[J];电子设计应用;2003年12期
16 包明,赵明富,郭建华;基于FPGA的高速高精度频率测量的研究[J];单片机与嵌入式系统应用;2003年02期
17 杜兆林 ,吴嗣亮;基于FPGA的专用信号处理器设计和实现[J];电子设计应用;2004年06期
18 ;Altera新款Cyclone II FPGA比前一代成本低30%[J];单片机与嵌入式系统应用;2004年08期
19 ;用作嵌入式处理器定制外围器件的FPGA[J];世界电子元器件;2004年09期
20 赵科;基于FPGA的加密算法的设计[J];微计算机信息;2004年09期
中国重要会议论文全文数据库 前10条
1 侯金华;;基于FPGA的SOC系统可靠性设计[A];2011中国电工技术学会学术年会论文集[C];2011年
2 张健;孙辉先;陈晓敏;安军社;;反熔丝FPGA的可靠性设计措施[A];第二十三届全国空间探测学术交流会论文摘要集[C];2010年
3 ;Design and Research of Video Fire Detection System Based on FPGA[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
4 董雪;费建军;白娇杨;;基于FPGA的智能火灾报警系统的设计与研究[A];天津市电视技术研究会2012年年会论文集[C];2012年
5 肖松;李跃华;张金林;;基于FPGA局部动态可重构的抗SEU容错系统研究[A];教育部中南地区高等学校电子电气基础课教学研究会第二十届学术年会会议论文集(下册)[C];2010年
6 王玮;钱伟康;应怀樵;;基于FPGA的PXI高速数据采集系统硬件设计[A];现代振动与噪声技术(第九卷)[C];2011年
7 钱伟康;梁利娟;王丽丽;;一种基于FPGA的CAN总线船舶监控系统[A];全国第三届信号和智能信息处理与应用学术交流会专刊[C];2009年
8 杨学友;叶振忠;刘常杰;李博文;;一种高速智能化视觉传感器设计[A];第三次全国会员代表大会暨学术会议论文集[C];2002年
9 鲁艳;雷维嘉;谢显中;;基于Avalon接口的交织编码技术的FPGA实现[A];2010年通信理论与信号处理学术年会论文集[C];2010年
10 许超;肖铁;施柏鑫;;基于FPGA的电子内窥镜视频处理系统[A];全国第二届信号处理与应用学术会议专刊[C];2008年
中国博士学位论文全文数据库 前10条
1 邬贵明;FPGA矩阵计算并行算法与结构[D];国防科学技术大学;2011年
2 张承畅;多FPGA系统的关键问题及应用研究[D];重庆大学;2011年
3 柴亚辉;基于FPGA的高性能计算架构硬件任务与资源模型研究[D];上海大学;2012年
4 陈迅;面向FPGA设计及应用的EDA关键技术研究[D];国防科学技术大学;2011年
5 李鹏;基于元构件的FPGA硬件构件设计技术研究[D];解放军信息工程大学;2011年
6 余慧;时分交换的新型FPGA互连结构研究[D];复旦大学;2011年
7 谢丁;FPGA互连结构评估系统研究与实现[D];复旦大学;2011年
8 王忠明;SRAM型FPGA的单粒子效应评估技术研究[D];清华大学;2011年
9 廖永波;SOC软硬件协同方法及其在FPGA芯片测试中的应用研究[D];电子科技大学;2010年
10 唐玉兰;伪布尔可满足性算法及其在FPGA布线中的研究应用[D];江南大学;2010年
中国硕士学位论文全文数据库 前10条
1 周志娟;相移波束形成的FPGA实现[D];哈尔滨工程大学;2011年
2 许冲;激光脉冲定距算法研究与FPGA实现[D];哈尔滨工业大学;2011年
3 叶忠彬;基于FPGA的数字频率合成系统的设计与实现[D];电子科技大学;2011年
4 彭涵阳;无串扰超声测距系统的激励方法及基于FPGA的设计与实现[D];天津大学;2010年
5 杜国女;基于FPGA的音乐景观灯的设计与实现[D];兰州交通大学;2011年
6 隆志远;基于FPGA和光电耦合的旋转机械非接触双向信号传输系统[D];南京航空航天大学;2010年
7 袁臻;电动多叶光栅通讯部分的FPGA实现[D];上海交通大学;2009年
8 刘开健;基于FPGA的实时图像处理系统的设计与实现[D];昆明理工大学;2008年
9 刘钰力;基于FPGA的SHA256高效数字加密系统[D];兰州大学;2011年
10 王恕;基于FPGA的伺服电机速度测量算法研究与实现[D];上海交通大学;2012年
中国重要报纸全文数据库 前10条
1 海英;赛灵思发布新型FPGA芯片方案[N];人民邮电;2009年
2 ;实现FPGA产品差异化[N];中国电子报;2011年
3 ;FPGA为消费电子提供安全保证[N];中国电子报;2011年
4 本报记者 赵艳秋 冯晓伟 冯健;FPGA:市场应用广 门槛需降低[N];中国电子报;2009年
5 本报记者 冯晓伟;FPGA格局难改 新兴企业胜算几何?[N];中国电子报;2009年
6 ;异步架构FPGA实现业界最高速度[N];中国电子报;2009年
7 ;突破功耗和成本限制设计中国需要的FPGA[N];中国电子报;2009年
8 ;通信仍是FPGA最大市场[N];中国电子报;2009年
9 本报记者 梁红兵;赛灵思:降低FPGA应用门槛[N];中国电子报;2010年
10 华北光电技术研究所 刘刚;FPGA+DSP升级热像设计[N];中国电子报;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978