国产AI芯片之争才刚刚开始

作者：时间：2023-07-04 来源：半导体产业纵横收藏

近日，芯片巨头AMD推出全新AI GPU MI300系列芯片，与英伟达在 AI 算力市场展开竞争。

本文引用地址：//m.amcfsurvey.com/article/202307/448271.htm

AMD首席执行官苏姿丰介绍称，MI300X 提供的高带宽内存（HBM）密度是英伟达 H100 的 2.4 倍，HBM 带宽是竞品的 1.6 倍。华尔街分析师也普遍认为，AMD的这款芯片将对目前掌握 AI 芯片市场逾八成份额的英伟达构成有力挑战，这款 MI300X 加速器，有望替代英伟达的同类产品。

然而，市场对本次新品的反响似乎并不热烈。截至隔夜收盘，AMD 股价下跌超 3.6%，被挑战的英伟达不跌反涨，股价单日大涨 3.90%。

至于当日 AMD 股价下跌的原因，可能包括英伟达在 AI 发展方面更为成熟，而 AMD 公司的新品仍有待市场验证。此外，其客户更关心的是价格问题。作为参考，由于供需紧张，英伟达 H100 的价格已经达到 4 万美元/枚，而 AMD 没有披露 MI300X 的定价，难以与英伟达 H100 形成对比。

蹿红的英伟达

2022 年 ChatGPT 横空出世，把 AI 行业的发展推向了一个新的高潮，生成式 AI 需要基于海量的数据进行推理训练，高算力的 GPU 加速卡自然也成了市场的抢手货。乘着 AI 的东风，英伟达坐上了「算力霸主」的宝座。

据悉，微软用几亿美元，耗费上万张英伟达 A100 芯片打造超算平台，只为给 ChatGPT 和新版必应提供更好的算力。不仅如此，微软还在 Azure 的 60 多个数据中心部署了几十万张 GPU，用于 ChatGPT 的推理。特斯拉 CEO 马斯克也购买了约 1 万个 GPU，用于公司的两个数据中心之一。除此之外，像亚马逊、阿里、百度等众多科技公司都在竞相部署 AI 芯片。

供需的极度不平衡让英伟达的 GPU 一芯难求，开启涨价。据市场消息人士透露，英伟达的 A100 和 H100 AI GPU 订单还在不断增加，A800 和 H800 的售价已上涨 40%，新订单交期可能要延长到 12 月份。

在炙手可热的 AI 浪潮下，英伟达赚得盆满钵满。英伟达表示，其截至 7 月的本季度销售额预计将达 110 亿美元，较华尔街之前的估计高出 50% 以上。不过，作为 AI 的基础设施，算力芯片环节的「一家独大」显然不是有利于行业长远发展的生态，市场迫切需要引入新的竞争者，AMD 的出现或许有望「分担」AI 市场的压力。

与此同时，中国本土 AI 应用和 AI 芯片初创公司也随着 AI 的热潮和风投的关注而遍地开花。那么，中国的 AI 芯片研究进展如何了？哪些公司可以脱颖而出？

国产 AI 芯片进展几何？

中国主要的 AI 芯片公司有寒武纪、华为昇腾、海光信息、沐曦科技、壁仞科技、燧原科技、天数智芯等，随着 AI 应用的普及和成效开始凸显，国产 AI 芯片正迎来全面爆发和增长，多家 AI 芯片独角兽也将慢慢浮出水面。

寒武纪

在云端产品线，寒武纪已经推出了四代芯片产品，分别为：思元 100、思元 270、思元 290（车载）以及思元 370 系列，用以支撑在云计算和数据中心场景下复杂度和数据吞吐量高速增长的人工智能处理任务。此外，寒武纪还有一款在研产品思元 590，尚未正式发布，并且最有看头的便是寒武纪的思元 590。

该芯片采用 MLUarch05 全新架构，实测训练性能较在售旗舰产品思元 290 系列有大幅提升，有望成为国产先进 AI 算力芯片。据悉，思元 590 整体算力综合性能大约是 A100 的 70%，其有望在部分场景替代英伟达 A100。

不过，思元 590 的指令兼容性相对较差，后续可能影响部署。值得注意的是，其下一代产品的性能指标大约是 A100 的 1.5 倍，但同样面临软件生态影响，以及供应链问题。

华为昇腾

华为昇腾主要包括昇腾 910 和昇腾 310 两款处理器，采用自家的达芬奇架构。昇腾 310 主打面向边缘场景的低功耗 AI 处理器，昇腾 910 是一款面向云端和数据中心的高性能 AI 处理器，可以支持超大规模的 AI 训练任务，表现十分优秀。

据华为发布的信息，实际测试结果表明，在算力方面，昇腾 910 完全达到了设计规格，即：半精度 (FP16）算力达到 256 Tera-FLOPS，整数精度 (INT8) 算力达到 512 Tera-OPS，重要的是，达到规格算力所需功耗仅 310W，明显低于设计规格的 350W。

据悉，在实际应用过程中，昇腾 910 的处理速度比业界同类产品快 80% 以上。徐直军表示，昇腾 910 总体技术表现超出预期，作为算力最强 AI 处理器，当之无愧。

不过昇腾 910 也有着很大的局限性。昇腾 910 依赖华为自身软件生态、需要华为深度优化及代码移植，通用性相对要差一些，比如昇腾不能做 GPT-3，因为昇腾 910 不支持 32 位浮点，而目前大模型训练几乎都要使用 32 位的浮点。

沐曦科技

沐曦公司旗下主要有曦思和曦云两款 AI 芯片，其中曦云 MXC 系列是该公司研发的用于 AI 训练及通用计算的 GPU 芯片。

MXC500 是沐曦对标 A100/A800 的算力芯片，FP32 浮点性能可达 15TFlops，作为对比的是 A100 显卡 FP32 性能 19.5 TFLOPS。除了性能接近之外，MXC500 的完整软件栈（MXMACA）还兼容 CUDA，预计年底规模出货。

此外，沐曦的团队背景经验十分丰富，其一些核心人员曾参与 AMD 的 MI100、MI200 产品开发，这都是 AMD 目前最主流的 GPGPU 产品。

海光信息

海光信息是一个潜力股，拿海光 DCU（协处理器）系列深算一号和英伟达的 A100、AMD 的 MI100 来对比，其很多基本指标上都达到国际同类高端产品的水平，虽然在整体性能上依然有明显差距，但在国产替代的背景下其实已经相当优秀，发展潜力巨大。

不过，海光信息若要使用新一代 GPGPU 架构还需要 AMD 授权，存在迭代问题。

壁仞科技

壁仞的 BR100 发布时，凭借其超高的参数与性能引起了强烈的轰动。

参数方面，BR100 系列基于 7nm 制程工艺打造，拥有 770 亿个晶体管。由壁仞科技自主原创的芯片架构开发，采用 Chiplet（芯粒）、2.5D CoWoS 等先进的设计、制造与封装技术，可搭配 64GB HBM 2E 显存，超 300MB 片上缓存，支持 PCIe 5.0、CXL 互联协议等。

性能是 BR100 最具亮点的地方，拥有 1024 TOPS INT8，512 TFLOPS BF16、256 TFLOPS TF32+、128 TFLOPS FP32，可实现 2.3TB/s 的外部 I/O 带宽，支持 64 路编码、512 路解码等，号称在 FP32（单精度浮点）、INT8（整数，常用于人工智能推理）等维度，均超越了国际厂商最新旗舰。

BR100 系列通用 GPU 芯片支持云端训练和推理，目前已经到了收尾阶段，预计将在今年流片。壁仞科技的第二款芯片已经开始启动架构设计，之后壁仞科技还将逐步推出面向智算中心、云游戏、边缘计算的 GPU 芯片。

不过，BR100 还未有产品出来，其参数至今停留在实验室阶段，届时商用实测性能难以衡量。

阿里平头哥

阿里的 AI 芯片，与 GPU 架构有着很大的不同，因为他们做的完全是基于 AI 算法优化的架构。

阿里曾表示，含光 800 是当时全球最强的 AI 芯片，性能和能效比均为第一，1 颗含光 800 的算力相当于 10 颗 GPU。

含光 800 芯片在业界标准的 ResNet-50 测试中，推理性能达到 78563 IPS，比目前业界最好的 AI 芯片性能高 4 倍；能效比 500 IPS/W，是第二名的 3.3 倍。

在业界，平头哥发布的这款芯片也很被看好。

燧原科技

燧原科技，是少有的云端 AI 芯片创业公司，其完成对 AI 训练芯片的二次迭代，仅用了三年时间，主要产品是「邃思」。

据介绍，燧原科技发布的邃思 2.0 的尺寸达到 57.5 毫米×57.5 毫米（面积为 3306mm2），达到了日月光 2.5D 封装的极限，与上代产品一样采用格罗方德 12nm FinFET 工艺，内部共整合 9 颗芯片，单精度 FP32 算力为 40TFLOPS，单精度张量 TF32 算力为 160TFLOPS，整数精度 INT8 算力为 320TOPS。相比之下，英伟达基于 Ampere 架构的 A100 GPU 的单精度浮点计算能力仅为 19.5TFLOPS。

昆仑芯

百度昆仑芯片是百度自主研发的云端 AI 通用芯片。在 2018 年 7 月举办的百度 AI 开发者大会上，百度公司董事长兼 CEO 李彦宏正式宣布，百度自研 AI 芯片命名为昆仑。百度昆仑 1 于 2019 年成功流片，采用三星 14nm 制程工艺，目前量产超过 2 万片，在百度搜索引擎和百度智能云生态伙伴等场景广泛部署。百度昆仑 2 于 2021 年下半年实现量产，采用 7nm 先进工艺，其性能比百度昆仑 1 再提升 3 倍。据悉，百度正计划在年底做第三款昆仑芯片。

天数智芯

天数智芯主要包括天垓 100 和智铠 100 两款 AI 芯片，天垓 100 是一款基于 GPGPU 架构芯片的高性能云端通用并行计算卡，据介绍，天垓 100 从底层硬件到上层软件都是独立设计开发，不走购买国外 GPU IP 的捷径，确保了完全自主知识产权。随后天数智芯又发布了其第二款产品「智铠 100」，这款芯片被誉为「镇馆之宝」，吸引了众多行业用户的关注。

天数智芯 GPGPU 计算芯片主要针对云端 AI 训练+推理和云端通用计算，是国内难得的兼容 CUDA 等异构计算生态的数据中心高端计算芯片。

只靠算力，无法做英伟达的 PlanB

英伟达的强不只是体现在硬件产品上，在软件平台中，英伟达也有自己的护城河。

CUDA 就是英伟达推出的基于 GPU 的并行计算平台和编程模型，可以用来加速大规模数据并行计算，使得 GPU 可以用于更加广泛的科学计算和工程计算等领域。CUDA 的良好生态系统吸引了众多学术机构和高性能计算中心的关注和使用，也为英伟达提供了强有力的市场竞争优势。现在 AMD 也在做同样的事情，只是英伟达已经占了先发优势，AMD 搭建起来可能会更为艰难。

CUDA 的重要性不言而喻，但是提供 CUDA 兼容层，需要厂商具备足够的研发实力，上文提到的与 CUDA 兼容的有沐曦、海光、壁仞、天数智芯等公司，因此是否兼容 CUDA 也成为衡量 AI 芯片公司的标的之一。

至于是否一定要兼容 CUDA，业界有着不同见解。专家称，在小模型上 CUDA 仍然很重要，但在大模型上它的地位越来越轻了。如果未来中国市场以小模型为主，那 CUDA 还是有很大的影响力，而如果是以大模型为主，对于 CUDA 的依赖就越来越小了。

总而言之，重视软件配适开发至关重要。

对于建立国产 IT 系统的行动建议包括：设置合理国产系统及芯片性能要求和验证目的，从非关键应用开始尝试导入部分国产芯片；加强软件配适开发，确保软件对不同系统的兼容性、稳定性和运营性能；建立加强对国内基础 IT 软硬件厂商的投资，确保厂商对产品开发计划的影响力；优先考虑国内供应链和成熟平台，积极采用半导体创新技术。