收藏本站
《中国科学技术大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于混合硬件/软件的以加速器为中心的异构架构研究

Abdul Rehman Buzdar  
【摘要】:嵌入式系统已经成为人们日常生活中不可或缺的一部分。智能手机,高清电视,洗衣机和汽车牵引力控制系统不仅使生活更舒适,而且使生活更安全。低成本,高性能和高能效的需求已经成为系统设计的关键,为了实现这些需求,以加速器为中心的异构计算成为有效利用硬件的最佳方式。本论文研究了高性能和高能效嵌入式系统的两种设计方法。第一种方法是基于应用剖析来定制处理器架构。第二种方法是设计专用加速器,将其集成到处理器的数据路径,以增强性能。第一种方法涉及到FlexCore处理器中的指令解压缩器的实现以及压缩和解压缩方案的分析。指令解压缩器由VHDL设计和实现,并使用Cadence RTL编译器进行了综合。针对指令解压缩器的硬件实现,本文分析了压缩方案中不同参数的影响。由于节省了内存占用,指令解压缩器大大提高了 FlexCore的性能。然后,本文利用两种类型的加法器电路,纹波进位加法器(RCA)和Sklansky型加法器(SKL),实现了基本算术逻辑单元(ALU)。本文在专用集成电路(ASIC)平台上,使用了 VHDL和标准元件设计了 ALU。综合结果表明,ALU-RCA的面积变化比ALU-SKL更快,因为ALU-RCA必须更加努力以满足严格的时间约束,具有快速加法器的ALU-SKL则可以轻松满足严格的时间约束,而不增加面积和功耗。如果时间约束不高,与ALU-SKL相比,ALU-RCA使用较少的面积和功率。在第二种方法中,设计和实现了用于坐标旋转数字计算机(CORDIC),循环冗余校验(CRC)和维特比(Viterbi)算法的专用硬件加速器块。硬件加速器被集成到嵌入式处理器数据路径,在执行时间和能源效率方面,增强了处理器性能。之所以选择这些算法是因为它们被广泛地用于信号处理和通信系统中。这些算法的混合硬件/软件实现,提高了性能和面积/能量效率。对于CORDIC,CRC和Viterbi算法,在性能和能量效率方面,加速的嵌入式处理器数据路径分别提高了 14倍,153倍和4倍。CORD1C加速器的面积节省率高,共节省了四个乘法器和两个加法器。最后,给出了两个专用异构架构的设计实例。在第一个设计中,FPGA原型数字助听器的实现分为三个不同阶段:仅软件,混合硬件/软件,仅硬件。第二个例子涉及距离和速度测量系统的实现。FPGA实现分为三个阶段:使用Microblaze处理器的完全C设计,采用定制协处理器的加速设计,以及完全定制的硬件设计。整个系统在ASIC平台上实现,基于130nm工艺技术的ASIC在面积和时间方面优化了模块。论文给出了系统实现所使用的平台的优缺点以及各种属性对性能的影响。例如,从软件阶段到完成硬件实现,在性能和能效上,提高了 400倍。与通用硬件解决方案相比,以加速器为中心的混合硬件/软件异构架构,从数量级上提高了系统的性能和能量效率。
【关键词】:现场可编程门阵列(FPGA) 专用集成电路(ASIC) 混合硬件/软件设计 嵌入式处理器 加速器 指令解压缩器
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP332;TP368.1
【目录】:
  • 摘要5-7
  • Abstract7-17
  • Chapter 1 Introduction17-26
  • 1.1 Background and Related Work17-22
  • 1.2 Problem Statement22-23
  • 1.3 Thesis Outline23-26
  • Chapter 2 Optimization of Core Processor Architecture26-65
  • 2.1 Instruction Decompressor Design27-53
  • 2.1.1 FlexCore Processor Architecture29-31
  • 2.1.2 Flexible Datapath Interconnect31-32
  • 2.1.3 The FlexSoC Framework32-34
  • 2.1.4 Existing Compression Schemes34-35
  • 2.1.5 Implementation of Compression scheme35-38
  • 2.1.6 Instruction Decompressor38-42
  • 2.1.7 Implementation of Instruction Decompressor42-51
  • 2.1.8 Discussion on Synthesis Results51-53
  • 2.2 Arithmetic Logic Unit Design53-63
  • 2.2.1 ALU Design- Verification53-55
  • 2.2.2 ALU Design- Basic Synthesis55-58
  • 2.2.3 ALU Design- Design Respin and Power analysis58-62
  • 2.2.4 ALU Design- Place and Route62-63
  • 2.3 Conclusion63-65
  • Chapter 3 Application Specific Accelerator Design65-111
  • 3.1 CORDIC Accelerator Design66-91
  • 3.1.1 Standard CORDIC Algorithm68-72
  • 3.1.2 Hardware Mapping of Standard CORDIC72-73
  • 3.1.3 Standard CORDIC Hardware Accelerator73-79
  • 3.1.4 Modified CORDIC Algorithm79-85
  • 3.1.5 Modified CORDIC Hardware Accelerator85-91
  • 3.2 CRC Accelerator Design91-98
  • 3.2.1 CRC Computation Techniques91-93
  • 3.2.2 CRC Accelerator Implementation93-96
  • 3.2.3 Integration of CRC Accelerator with MicroBlaze96-98
  • 3.3 Viterbi Accelerator Design98-109
  • 3.3.1 Convolutional Encoding and Viterbi Decoding100-102
  • 3.3.2 Initial Viterbi Decoder102-103
  • 3.3.3 Mixed HW/SW Viterbi Accelerator103-106
  • 3.3.4 Integration of Viterbi Accelerator with MicroBlaze106-109
  • 3.4 Conclusion109-111
  • Chapter 4 Heterogeneous Architectures111-143
  • 4.1 Digital Hearing Aid112-122
  • 4.1.1 Types of Hearing Aids114-115
  • 4.1.2 Signal Processing Techniques115
  • 4.1.3 Basic Description of System115-117
  • 4.1.4 Mixed Hardware/Software Implementation117-119
  • 4.1.5 Hardware Implementation119-122
  • 4.2 Distance and Speed Measurement122-141
  • 4.2.1 Software Implementation125-129
  • 4.2.2 Mixed Hardware/Software Implementation129-133
  • 4.2.3 Hardware Implementation133-135
  • 4.2.4 ASIC Implementation135-141
  • 4.3 Conclusion141-143
  • Chapter 5 Conclusion and Future Directions143-146
  • 5.1 Summary143-144
  • 5.2 Future Directions144-146
  • References146-171
  • Acknowledgements171-173
  • List of Publications173-174

中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026