新闻中心

EEPW首页>EDA/PCB>设计应用> 充分发挥FPGA浮点IP内核的优势

充分发挥FPGA浮点IP内核的优势

作者: 时间:2009-12-07 来源:网络 收藏

表 1. 单精度矩阵乘法性能结果

MatrixAA大小
MatrixBB大小
Vectorsize
使用的逻辑
GFLOPSf MAX (MHz)
功耗 (mW)
ALM (1)
DSP使用 (2)
M9KM144K
存储器 (bits)
静态
动态
I/O
总计
36x112 112x36 8 4,604 32 43 2 576,200 4 291 2,008 1,063 300 3,334
36x224 224x36 16 7,882 64 77 4 1,101,920 9 291 2,045 1,821 300 4,165
36x448 448x36 32 14,257 128 137 8 2,153,040 18 291 2,110 3,448 300 5,858
64x64 64x64 32 13,154 128 41 8 1,333,233 18 292 2,112 2,604 306 5,023
128x128 128x128 64 25,636 256 141 16 3,173,189 37 293 2,244 5,384 306 7,934

注释:

(1) 自适应逻辑模块
(2) 18x18 DSP模块
使用 Quartus II功耗估算器,很容易计算得到实际的每瓦每秒 giga结果 (GFLOPS/W)。使用 Altera.
Stratix. IV EP4SE230部分资源时,结果达到了 5 GFLOPS/W。使用 Stratix IV EP4SE530器件中更大的
矩阵乘法内核,结果大约为 7 GFLOPS/W,计算密度为 200 GFLOPS。利用整个器件实现大规模算法
时,分散了静态功耗,效率非常高。

Altera开发的技术大大降低了实现大规模浮点数据通路的逻辑和布线资源要求。使用浮点数据通路优化
工具非常关键,对资源要求的降低使得单位浮点逻辑/布线运算比达到了高端的水平。这反映在工
具能够实现接近 300 MHz的 fMAX,与例化的矩阵乘法规模无关。通过这种方式,在大规模浮点设计中,用
户能够可靠的使用 FPGA 80%以上的资源,实现大于 200-MHz的 fMAX性能。

矩阵求逆
FPGA中浮点算法最常见的应用是矩阵求逆。大部分无线多输入多输出 (MIMO)算法、雷达 STAP系统、医疗
成像聚束和很多高性能计算应用都需要进行矩阵求逆。参数赋值矩阵求逆浮点的实例性能 (表2)
显示了非常高的矩阵吞吐量。 4x4矩阵求逆内核能够进行每秒 2千万次矩阵求逆运算,速度足以支持 LTE
无线 MIMO应用。

表 2. 单精度浮点矩阵求逆 (Cholesky算法 )性能

快速傅立叶变换
FFT是另一种大动态范围应用实例。由于 FFT算法的内在特性,位精度一般会随着 FFT长度增加而增大。某些应用使用级联 FFT,需要更大的动态范围。很多雷达应用使用 FFT进行定点算法,装入测距数据。这一般还需要第二次 FFT,装入多普勒测距数据,动态范围足够高,需要采用浮点算法。如图3和图4所示,相对于定点算法,需要增加逻辑以实现单精度浮点算法,而电路 fMAX、存储器和乘法器基本相似。


充分发挥 FPGA浮点的优势 Altera公司

图3. FFT逻辑和寄存器使用对比

结论
Altera新的浮点电路优化技术集成到浮点中,同时提高了密度,并提供更多的逻辑资源,实现了优异
的 FPGA浮点性能。其他供应商提供专用浮点处理器解决方案,但是,大部分都达不到 Altera FPGA解决
方案的 GFLOPS高性能水平,而且没有一个能够实现 Stratix IV FPGA解决方案的 GFLOP/W性能。国家科
学基金会 (NSF)高性能配置计算中心 (CHREC)的独立基准测试证明了这一点,认为 Stratix IV EP4SE530双
精度浮点处理的性能最好。

Altera FPGA的其他优点包括业界领先的外部存储器带宽资源以及性能达到 12.5 Gbps的SERDES收发器等。
FPGA平台还提供性能最好的定点数据通路,实现了非常灵活的 I/O和存储器接口。通过这些功能, Stratix
IV FPGA成为构建高性能浮点数据通路的理想平台,可以用在多种应用中,从高性能计算到雷达和电子战,
直至基于 MIMO的 SDR/无线系统,以及无线聚束应用等。



上一页 1 2 下一页

关键词:FPGA浮点IP内核

评论


相关推荐

技术专区

关闭