新闻中心

EEPW首页>嵌入式系统>业界动态> AMD大爆发 Vega GPU架构技术要点总结

AMD大爆发 Vega GPU架构技术要点总结

作者: 时间:2017-03-21 来源:微型计算机 收藏
编者按:在今年一月份的CES展会上,AMD对外披露了Vega的部分技术细节,虽然关键的性能指标还不得而知,但我们还是可以从下列资料中可以看出Vega所具有的巨大潜力。

  NCU:下一代计算单元,为深度学习优化

本文引用地址://m.amcfsurvey.com/article/201703/345466.htm

  单精度和双精度计算应用于3D渲染领域,但诸如深度学习等计算任务并不需要用到,它们只需16位半精度浮点计算操作就行。现有的 Fiji和Polaris GPU中没有考虑到这一点,它的半精度性能与32位单精度性能是一样的,而半精度计算需要的寄存器资源却少得多,也就是说没有对此作优化。与之相比,英伟达的Tesla 100加速卡,半精度性能就达到双精度的两倍,这让它在通用计算中占据性能优势。

  为此,GPU中首度引入了名为“Packed(紧缩)”的半精度计算支持,Vega的微架构被称为“NCU(下一代计算单元)”,每个NCU中拥有64个ALU,它可以灵活地执行紧缩数学操作指令,如每个周期可以进行512个8位数学计算,或者256个16位计算,或者128个32位计算—这不仅充分利用了硬件资源,也大幅度提升Vega在深度学习计算的性能。

GPU的性能推算

  Vega的架构改进,给业界带来很大的想象力,但它的性能究竟能达到何种级别,还是存在很大的悬念。虽然基于GPU的显卡尚未发布,但在去年12月份却带来一款Radeon Instinct MI25 计算卡的消息,它所搭载的就是Vega GPU芯片。

AMD大爆发 Vega GPU架构技术要点总结

  Radeon Instinct MI25 计算卡

  Radeon Instinct MI25计算卡针对深度学习领域,GPU中直接集成了16GB容量的HBM2高速缓存(对应显卡则是显存),卡上另外还集成了1TB容量的NAND闪存,海量的计算数据可以直接放在这块存储器中,而不必经过系统内存再到传统硬盘上,由此满足大计算量所需的高速交换需求。M125的16位半精度浮点性能达到25TFLOPS,而用于3D渲染的32位单精度浮点性能也达到12.5TFLOPs,与之相比,目前AMD的主力显卡RX 480的单精度浮点性能只有5.8 TFLOPs—我们可以简单得出这样的推论,Vega GPU的3D渲染性能,理论上将能达到目前RX480显卡的两倍左右。

  而在Radeon Instinct MI25的发布会上,AMD同样展示了基于Vega GPU的下一代Radeon显卡的测试成绩,AMD在现场使用《DOOM2016》进行了演示,游戏配置为4K@60Hz分辨率、Ultra 画面。这块显卡的显存只有8GB容量,在实际测试中,游戏帧数达到60~70fps的性能,整体相当于NVIDIA的 GTX 1070、1080之间。考虑到展示卡是早期版本、规格也不高,能达到这样的性能足以让外界振奋,这让我们想到图形双雄并立的美好时光。

  Radeon Instinct 平台:Vega进军深度学习市场

  AMD对Vega GPU在图形领域的实力秘而不宣,但在吹风会上,它将Vega的应用重点更多放在机器学习领域。为此,AMD专门发布了新的AI 计算子品牌“Radeon Instinct”,该平台包括硬件的加速卡和ROCm软件平台,我们前面提到的Radeon Instinct MI25计算卡就是加速卡中的旗舰型号。ROCm软件平台更为我们所关注。

  我们知道,NVIDIA占据通用计算市场,除了Tesla加速卡在硬件性能方面的优势外,更重要的它提供了软件解决方案,借助它的方案,开发者能够编制出相应的Tesla加速程序。由于Tesla在并行计算应用中比传统的CPU优势巨大,方案一出就快速获得业界的接受,并成为事实上的市场热门标准,以至于英特尔都无法在密集计算市场与之争锋。NVIDIA现在将他们的GPU定位于AI、神经网络的首选的计算平台,并开始转型将自身定位于AI计算公司,而不是单单停留在传统的游戏显卡市场。这对于AMD显然是非常大的刺激,现在AMD也想在该AI计算获得突破,那么光靠Vega平台的硬件实力显然不行,ROCm软件平台的出台就是为了解决开发环境支持的短板。


AMD大爆发 Vega GPU架构技术要点总结

  Radeon Instinct两大构成:硬件加速卡和ROCm开发环境



关键词:AMDVega

评论


相关推荐

技术专区

关闭