AMD大爆发 Vega GPU架构技术要点总结

作者：时间：2017-03-21 来源：微型计算机收藏

编者按：在今年一月份的CES展会上，AMD对外披露了Vega的部分技术细节，虽然关键的性能指标还不得而知，但我们还是可以从下列资料中可以看出Vega所具有的巨大潜力。

　　NCU：下一代计算单元，为深度学习优化

本文引用地址：//m.amcfsurvey.com/article/201703/345466.htm

　　单精度和双精度计算应用于3D渲染领域，但诸如深度学习等计算任务并不需要用到，它们只需16位半精度浮点计算操作就行。AMD现有的 Fiji和Polaris GPU中没有考虑到这一点，它的半精度性能与32位单精度性能是一样的，而半精度计算需要的寄存器资源却少得多，也就是说AMD没有对此作优化。与之相比，英伟达的Tesla 100加速卡，半精度性能就达到双精度的两倍，这让它在通用计算中占据性能优势。

　　为此，VegaGPU中首度引入了名为“Packed(紧缩)”的半精度计算支持，Vega的微架构被称为“NCU(下一代计算单元)”，每个NCU中拥有64个ALU，它可以灵活地执行紧缩数学操作指令，如每个周期可以进行512个8位数学计算，或者256个16位计算，或者128个32位计算—这不仅充分利用了硬件资源，也大幅度提升Vega在深度学习计算的性能。

VegaGPU的性能推算

　　Vega的架构改进，给业界带来很大的想象力，但它的性能究竟能达到何种级别，还是存在很大的悬念。虽然基于VegaGPU的显卡尚未发布，但AMD在去年12月份却带来一款Radeon Instinct MI25 计算卡的消息，它所搭载的就是Vega GPU芯片。

　　Radeon Instinct MI25 计算卡

　　Radeon Instinct MI25计算卡针对深度学习领域，GPU中直接集成了16GB容量的HBM2高速缓存(对应显卡则是显存)，卡上另外还集成了1TB容量的NAND闪存，海量的计算数据可以直接放在这块存储器中，而不必经过系统内存再到传统硬盘上，由此满足大计算量所需的高速交换需求。M125的16位半精度浮点性能达到25TFLOPS，而用于3D渲染的32位单精度浮点性能也达到12.5TFLOPs，与之相比，目前AMD的主力显卡RX 480的单精度浮点性能只有5.8 TFLOPs—我们可以简单得出这样的推论，Vega GPU的3D渲染性能，理论上将能达到目前RX480显卡的两倍左右。

　　而在Radeon Instinct MI25的发布会上，AMD同样展示了基于Vega GPU的下一代Radeon显卡的测试成绩，AMD在现场使用《DOOM2016》进行了演示，游戏配置为4K@60Hz分辨率、Ultra 画面。这块显卡的显存只有8GB容量，在实际测试中，游戏帧数达到60~70fps的性能，整体相当于NVIDIA的 GTX 1070、1080之间。考虑到展示卡是早期版本、规格也不高，能达到这样的性能足以让外界振奋，这让我们想到图形双雄并立的美好时光。

　　Radeon Instinct 平台：Vega进军深度学习市场

　　AMD对Vega GPU在图形领域的实力秘而不宣，但在吹风会上，它将Vega的应用重点更多放在机器学习领域。为此，AMD专门发布了新的AI 计算子品牌“Radeon Instinct”，该平台包括硬件的加速卡和ROCm软件平台，我们前面提到的Radeon Instinct MI25计算卡就是加速卡中的旗舰型号。ROCm软件平台更为我们所关注。

　　我们知道，NVIDIA占据通用计算市场，除了Tesla加速卡在硬件性能方面的优势外，更重要的它提供了软件解决方案，借助它的方案，开发者能够编制出相应的Tesla加速程序。由于Tesla在并行计算应用中比传统的CPU优势巨大，方案一出就快速获得业界的接受，并成为事实上的市场热门标准，以至于英特尔都无法在密集计算市场与之争锋。NVIDIA现在将他们的GPU定位于AI、神经网络的首选的计算平台，并开始转型将自身定位于AI计算公司，而不是单单停留在传统的游戏显卡市场。这对于AMD显然是非常大的刺激，现在AMD也想在该AI计算获得突破，那么光靠Vega平台的硬件实力显然不行，ROCm软件平台的出台就是为了解决开发环境支持的短板。

　　Radeon Instinct两大构成：硬件加速卡和ROCm开发环境

新闻中心

AMD大爆发 Vega GPU架构技术要点总结

评论

相关推荐

技术专区