ARM的新CPU和GPU核能否冲击英特尔老巢？

作者：时间：2018-06-22 来源：集微网收藏

编者按：在连续创造惊人的数字之后，ARM的目光更为长远，除着力渲染可将智能手机实现PC性能之外，染指笔记本电脑市场的野心愈加明晰。

　　在连续创造惊人的数字之后，ARM的目光更为长远。据最新数据显示，截止2017年底基于Arm的芯片出货量已达1200亿片，约占整体市场四成份额。Arm资深市场营销总监Ian Smythe表示，到目前为止基于Arm的芯片出货量应已突破1300亿，未来将迈向2000亿。2035年预计将有一万亿的互联设备，而5G、AI、安全、全计算等技术将大行其道，以为用户提供更自由更互连的浸入式体验。基于此Arm IP产品线再添生力军，在CPU和GPU层面均实现跃升，除着力渲染可将智能手机实现PC性能之外，染指笔记本电脑市场的野心愈加明晰。

本文引用地址：//m.amcfsurvey.com/article/201806/382031.htm

　　Cortex-A76的野心

　　去年Arm发布的Cortex-A75针对AI和ML能力进行了特别优化，同时引入了TrustZone技术(芯片级安全技术)和DynamIQ big.LITTLE拓扑特性。而今年Arm宣布最新旗舰CPU——Cortex-A76，相比上一代在性能上实现了35%的提升，同时降低了40%的功耗，并在机器学习能力上提升了4倍。

　　“实现上述进步的原因在于，Cortex-A76虽采用和前一代相同的v8.2指令集，但内建的微处理器架构则是从头开始研发，实现了诸多重大改进，包括解耦合分支预测与指令预取、译码宽度更大、更高的整数与向量与浮点运算单元等。同时，Cortex-A76是针对7nm工艺定制的全新架构，在搭配7nm工艺时主频可达到3.0GHz。”Ian Smythe强调。

　　这一性能相当于PC端英特尔旗下的酷睿i5-7300，如果SoC厂商缓存设计得更好，其性能甚至可以媲美i7。联想到此前新一代高通骁龙1000版Windows 10ARM笔记本，表明Arm正着力染指PC市场，但能否借Cortex-A76挑战英特尔/AMD在PC领域的权威还待合作伙伴的力道以及生态的配合。同时Cortex-A76还意欲为智能手机带来笔记本级别的性能，过发挥比前一代产品高达4倍的机器学习性能，解决云端持续互动衍生出的延迟以及安全方面的问题。Cortex-A76可谓“身兼重任”。

　　此外，Arm还提供独特的POP技术。Ian Smythe提及，基于台积电16FFC的Cortex-A76 POP IP，可提供目前最佳性能;而对于那些寻求顶尖制程并锁定高端应用的客户，使用台积电7FF制程的Cortex-A76和Cortex-A55 POP IP将于2018年第四季度上市。Arm POP IP可加速产品的实现，缩短上市时间，并充分利用DynamIQ big.LITTLE的灵活性。

GPU和VPU的跨越

GPU可说是Arm未来要发展AI计算生态的主要角色，从第一代BiFrost架构开始，就已经针对AI计算所需要的各种场景，包含机器学习中的训练以及推理加速等进行优化。时间节点到了2018年中，Mali-G76新晋成为Arm最新旗舰GPU。

　　“Mali-G76仍采用Bifrost架构，总核配置上限从32核降为20核，每个核心仍然是3个执行单元，但执行单元的线程数增加到8条，也就是每核心24条线程。加上配备texture mapper以及缓存器的优化等，再度提升了30%的性能密度以及30%的能源效率。在7nm工艺的加持下，其性能可提升1.5-2倍。”Ian Smythe介绍说，“而且新GPU通过支持int8 dot实现了强大的机器学习功能，表现足足是Mali-G72的2.7倍。”

　　除在GPU领域精进之外，面向未来的8K视觉体验，Arm推出了最新的高端视频处理器(VPU)Mali-V76来占领先机。

　　Ian Smythe介绍，8K60规格串流需要4K60格式的视频4倍的带宽，为此Arm通过加入额外的AXI总线，使处理量增加一倍。此外还将行缓冲区从4096个像素增加到8192个，从而带来额外的效能提升，使得Mali-V76不仅支持8k60解码和8k30编码，性能亦几乎是上一代产品的两倍。

　　即使是当前的高端设备，4K仍未成为标准配备，那么为何市场已开始提前锁定8K?Ian Smythe认为，产业局势瞬息万变，Arm必须针对未来设备的需求提前准备。在未来的高端电视以及更高分辨率的AR/VR头显领域，Mali-V76将发挥更大作用。而对于一个8K视频流的替代方案而言，可选择支持4个60fps的4K视频流。

　　AI仍“借力使力”

　　虽然在AI布局上，Arm看似慢了半拍。但事实上，ARM早在2016年就已经把触手伸进多个AI应用领域同时发展，包含号称针对机器学习优化的Bifrost GPU 架构，以及针对高端服务器芯片的SVE延伸指令集。随着相关方案陆续成熟，采用者也逐渐增加，Arm在今年2月推出Project Trillium，结合开发环境、算法与各大主流机器学习框架，布局从终端到云端所有AI应用开发生态。

　　而此次推出的无论是CPU还是GPU，在AI性能上均实现了大幅提升，表明Arm的AI布局亦在稳妥推进。

　　至于没有推出单独的AI加速器原因，Ian Smythe特意指出，目前AI还处于初级阶段，虽然某些厂商选择配备单独的AI加速器，但仍有一些合作伙伴配备GPU来对AI方案进行调适，以其灵活性来进行定制化设计，并可获得Arm生态体系的广泛支持。

　　在近两年的AI热潮中，各家新创产业纷纷推出自有的AI加速器，群雄并起。但Arm仍如此“气定神闲”没有染指AI加速器内核，或许有更深的考量。但是，无论是对算法的承载，对计算的优化，对AI生态的构建，Arm的时间或许没有想象那么从容。