基于矩阵乘法器的MP3解码优化设计

作者：时间：2011-02-10 来源：网络收藏

2．2 基于矩阵 乘法器的快速DCT算法优化
3×3矩阵 乘法器由触发器和乘累加器组成，是高性能DSP处理器的重要部件，也是实时处理的核心，其速度直接影响DSP处理器的速度。矩阵 乘法器的实现有很多种，基本上都基于并行计算原则。由于每列结果与其他列不相关，因此可以通过增加乘法器多列同时计算，经过n次乘累加就可以得到最后结果。图3给出矩阵乘法器的结构。

本文引用地址：//m.amcfsurvey.com/article/187628.htm

显然，这种结构的计算速度很快，但是使用乘法器会因矩阵维数n的增加而快速增加，使用的触发器也很多。在很多场合下，只要满足处理速度的要求，完全没有必要浪费这么多硬件资源，而是只要1个乘累加单元流水作业，分步计算每1列结果既可。在做乘累加计算1个元素时候，准备下一组参与运算的数据，如此循环，同样可以获得较高的处理速度。
在该设计中，由于B矩阵是1×n的一维向量输入数据，A矩阵为DCT系数矩阵，A矩阵中的元素为n个系数的线性组合，因此整个矩阵乘法器需要2组n个触发器分别存放输入数据和n个系数，1个乘累加单元。输入数据X[0：n]，从X[O]到X[n]循环n次进入乘法器，使用选择信号Assi-gn[0：n]选择系数C[0：n]，另外系数符号由Sign信号软件控制，基本结构如图4所示。

由于DCT计算本质上就是n×n矩阵乘法运算，而n×n矩阵乘法器是在通用乘法器的基础上增加2组分别存放系数矩阵的系数C(n)和输入X(n)的n个寄存器，使之实现长度为n的乘累加功能，同时还需保存上次乘法结果。其中，DCT中的系数是一组n维基的n种线性组合。只需1次输入n个系数，使用软件进行选择和符号控制就可实现这些不同系数组合，无需反复往寄存器中置数，大大提高了取数／置数的效率，节省了整个DCT的运算时间。
因此在计算32点的DCT，可将32点DCT分解为2个16点的DCT计算，计算量也减少1倍。可以使用2组16×16的矩阵乘法器并行计算，使得计算时间大幅减少。表2是通过增加矩阵乘法器优化处理后，子带综合滤波使用不同实现方式所需要的时间。

结果表明，第2．1节中使用快速32点DCT算法改进子带综合滤波计算是有效的，直接减少59％的计算时间。在采用并行2个16×16矩阵乘法器加速快速32点DCT的计算，可以取得明显的效果：使得计算时间比原算法减少了约91．4％，而且硬件上只增加1个乘法器和30个数据锁存器，以及部分控制电路。使用软硬件协同操作就可以获得子带综合滤波计算速度上的大幅度上升。

3 结语
该设计面向SoC实现了利用增加矩阵乘法器就可加快基于32点快速DCT算法的MP3解码中子带综合滤波的处理速度，大大缓解了系统的颈瓶，使得采用系统主频比较低(fs≤100 MHz)的SoC平台进行MP3的解码成为可能。