FT-Matrix DSP向量定点MAC单元的设计与实现
【摘要】:DSP是无线通信数据运算的核心部件。在未来第4代或准4代无线通信中,个人用户的语音和数据处理速率将大幅度提高,这涉及到大量的数据运算,比如:音频、视频处理中的离散余弦变换及逆变换、快速傅立叶变换、编码/解码等,每秒钟需要进行几亿到几千亿次的运算,主要数据运算为乘加操作。因此,研制面向第4代或准4代无线通信软基站DSP的高性能乘加(MAC,Mutiply Accumulate)单元具有重要意义。
FT-Matrix DSP是我们自主研发的、具有我国自主知识产权的一款面向第4代或准4代无线通信软基站的高性能32位DSP。它采用VLIW(超长指令字)技术,一个节拍内最多可以发射10条指令,并采用标量处理和向量处理并发执行的体系结构。其中,向量处理单元(VPU,Vector Process Unit)由16个同构的处理单元(PE)构成,用于处理高计算密度的算法。本论文对FT-Matrix DSP的向量定点MAC(VIMAC,Vector Integer MAC)单元进行了需求分析、指令集设计和逻辑结构设计,并对标量定点MAC(SIMAC,Scalar Integer MAC)进行了设计、验证和逻辑综合。
本文对3GPP关键算法进行了研究,设计了VIMAC单元的指令集。FT-Matrix DSP的VIMAC单元支持16个SIMAC单元同时完成32个16位×16位+40位操作的向量指令,同时也支持64个8位×8位+20位操作的向量指令。为了加快整个向量运算部件的加法运算速度,需要在VIMAC单元中支持快速向量加法运算。因此,本文在SIMAC中实现了快速加法功能,设计了一条能够实现乘法类和快速加法类两种运算的多功能流水线。SIMAC单元采用改进的Booth算法来减少部分积数目,用由压缩器(compressor)组成的华莱士树(Wallace tree)将产生的部分积相加。为了减小SIMAC单元的面积,本文将乘法器的部分积压缩阵列进行了三角划分,该方法对功耗和延时也有一定程度的改善。为了减小硬件代价,本文复用了流水线第三站的两个40位加法器,实现了改进的32位乘法。考虑到需要同时支持多种类型的溢出判饱和,本文采用了动态饱和装置进行饱和处理。
为了进一步提高SIMAC单元的性能,本文还对融合乘加技术进行了研究,并申请了相关专利。在下一代SIMAC单元的设计与实现中,我们将采用这项技术。
本文运用NC Verilog对SIMAC单元从模块级和系统级两个方面进行了模拟验证,开发了有效、完备的测试码,构建了测试模型,验证了设计的正确性。然后,对SIMAC单元进行了综合,结果表明,该单元在0.13微米工艺下的工作频率为500MHz左右,面积为48345.6μm~2 ,动态功耗为12.52 mw,均达到了所要求的性能指标。最后,将本文设计的SIMAC与常规SIMAC单元进行了性能对比,结果表明,本文所设计的SIMAC单元在功耗以及关键路径延时上,比常规的SIMAC单元都有所改善,面积减小了三千多平方微米。
|
|
|
|
1 |
杨大柱;;基于TMS320C5510的FIR滤波器设计与实现[J];微计算机信息;2008年17期 |
2 |
陈爽;陈雷;孙国欣;刘闪;刘茂华;辛向利;;32位DSP乘法器分析与设计[J];电子工程师;2007年11期 |
3 |
喻临丰,郭尚来;DSP开发系统的设计与应用[J];微型机与应用;1995年01期 |
4 |
喻德顺;MCU的发展及其趋势[J];微处理机;1996年03期 |
5 |
陈芳,沈兰荪,涂承宇,王爱民;短波软件无线电[J];数字通信;1997年04期 |
6 |
张晖,宋星文,王扶文;用VB开发DSP的监控界面环境[J];微型电脑应用;1997年04期 |
7 |
周璇,余松煜;甚低码率视频编码器的TMS320C80实现[J];电子技术应用;1998年07期 |
8 |
张睿,李建东;一种实用的软件无线电结构[J];电子学报;1999年S1期 |
9 |
吕晖,董在望;基于软件无线电概念的DAB基带处理器[J];广播与电视技术;1999年12期 |
10 |
朱军;信号恒虚警检测的DSP实现[J];微机发展;1999年04期 |
11 |
陈三宝,徐泽群,房雪莲;基于DSP技术的实时信号分析系统研究[J];武汉交通科技大学学报;2000年04期 |
12 |
张锡宁;无线通信技术新发展──软件无线电[J];电气电子教学学报;2000年01期 |
13 |
赵慧民,张光昭,庄宏成,陈锐祥;DSP在ADSL Modem中的一种应用与实现[J];电子技术;2000年06期 |
14 |
王正航;具有DSP功能的16位微控制器80296SA[J];国外电子元器件;2000年10期 |
15 |
石文孝,荆涛,杨怀江;混沌序列的神经网络实现[J];光学精密工程;2000年03期 |
16 |
邓勇,刘琪;串行A/D转换器TLC2543与TMS320C25的接口及编程[J];微处理机;2000年01期 |
17 |
余淼,李传兵,廖昌荣,陈伟民,黄尚廉;基于DSP的磁流变阻尼器的控制方法[J];半导体技术;2001年09期 |
18 |
李勇,张怡,廉保旺,昝积成,赵乃煌,杜锋;基于TMS320C30的PD雷达仿真信号处理机设计[J];弹箭与制导学报;2001年02期 |
19 |
中国矿业大学北京校区,苏又平
,中国矿业大学北京校区,刘云
,中国矿业大学北京校区,孙祖宇;基于TMS320F206 DSP的图像采集卡设计[J];电子技术应用;2001年11期 |
20 |
裴洪安,刘万春,贾云得;基于TMS320C32的多路声信号实时采集与处理系统[J];探测与控制学报;2001年01期 |
|