新闻中心

EEPW首页>智能计算>市场分析> 两个技术,困住英伟达GPU生产

两个技术,困住英伟达GPU生产

作者:semianalysis 时间:2023-07-07 来源:半导体产业纵横 收藏

生成人工智能即将到来,它将改变世界。自从 ChatGPT 风靡全球并抓住了我们对 AI 可能性的想象力以来,我们看到各种各样的公司急于训练 AI 模型并将生成式 AI 部署到内部工作流程或面向客户的应用程序中。不仅仅是大型科技公司和初创公司,许多非科技财富 5000 强公司正在研究如何部署基于 LLM 的解决方案。

本文引用地址://m.amcfsurvey.com/article/202307/448435.htm

当然,这将需要大量的计算。销量像火箭一样上升,供应链一直在努力跟上对的需求。公司正在争先恐后地获得 GPU 或云实例。

即使是 OpenAI 也无法获得足够的 GPU,这严重阻碍了其近期路线图。由于 GPU 短缺,OpenAI 无法部署其多模态模型。由于 GPU 短缺,OpenAI 无法部署更长的序列长度模型(8k 与 32k)。

与此同时,中国公司不仅投资部署自己的 LLM,而且还在美国出口管制进一步收紧之前进行库存。例如,Tik Tok 背后的中国公司字节跳动(Bytedance)据称从订购了价值超过 10 亿美元的 A800 / H800。

最高端的 Nvidia GPUH100 将一直售罄到明年第一季度,尽管 Nvidia 试图大幅增加产量。将每季度出货 400,000 个 H100 GPU。

今天,我们将详细介绍生产瓶颈以及及其竞争对手的下游产能正在扩大多少。

英伟达的 H100 采用 CoWoS-S 上的 7 芯片封装。中间是 H100 GPU ASIC,其芯片尺寸为 814mm2。不同 SKU 之间的 HBM 配置有所不同,但 H100 SXM 版本使用 HBM3,每个堆栈为 16GB,总内存为 80GB。H100 NVL 将具有两个封装,每个封装上有 6 个 HBM 有源层。

在只有 5 个有源 HBM 的情况下,非 HBM 芯片可以为芯片提供结构支持。这些芯片位于一个在图片中看不清楚的硅插入物之上。该硅插入物位于一个封装衬底上,该封装衬底是一个 ABF 封装衬底。

GPU 芯片和台积电制造

英伟达 GPU 的主要数字处理组件是处理器芯片本身,在名为「4N」的定制台积电工艺节点上制造。它在台积电位于中国台湾台南的 Fab 18 制造,与台积电 N5 和 N4 工艺节点共享相同的设施。这不是生产的限制因素。

台积电 N5 工艺节点的利用率降至 70% 以下,原因是 PC、智能手机和非 AI 相关数据中心芯片的巨大疲软,英伟达在确保额外的晶圆供应方面没有问题。

事实上,英伟达已经订购了大量用于 H100 GPU 和 NVSwitch 的晶圆,这些晶圆立即开始生产,远远早于它们需要出货芯片。这些晶圆将存放在台积电的芯片组中,直到下游供应链有足够的能力将这些晶圆封装成完整的芯片。

基本上,英伟达正在吸收台积电的一些低利用率,并获得一些定价优势,因为英伟达已承诺在未来购买成品。

晶圆库,也称为芯片库,是半导体行业的一种做法,其中部分加工或完成的晶圆被存储,直到客户需要它们。与其他一些代工厂不同,台积电将通过将这些晶圆保存在自己的账簿上几乎完全加工来帮助他们的客户。这种做法使台积电及其客户能够保持财务灵活性。由于它们只是部分加工的,因此晶圆库中持有的晶圆不被视为成品,而是被归类为在制品。只有当这些晶圆完全完成时,台积电才能确认收入并将这些晶圆的所有权转让给客户。

这有助于客户装扮他们的资产负债表,使库存水平看起来得到控制。对于台积电来说,好处是它可以帮助保持更高的利用率,从而支持利润率。然后,当客户需要更多的库存时,这些晶圆可以通过几个最后的加工步骤完全完成,然后以正常的销售价格甚至轻微的折扣交付给客户。这有助于客户修饰他们的资产负债表,使库存水平看起来处于控制之中。对于台积电说,好处是可以帮助保持更高的利用率,从而支撑利润率。然后,随着客户需要更多库存,这些晶圆可以通过几个最终加工步骤完全完成,然后以正常销售价格甚至稍有扣的价格交付给客户。

HBM 在数据中心的出现

GPU 周围的高带宽内存是下一个主要组件。HBM 供应量也有限,但正在增加。HBM 是垂直堆叠 DRAM 芯片,通过硅通孔(TSV)连接,并使用 TCB 键合(未来需要更高的堆叠数量)。在 DRAM 芯片下面有一个基本逻辑作为控制器的管芯。通常,现代 HBM 有 8 层内存和 1 个基本逻辑芯片但是我们很快就会看到 12+1 层 HBM 的产品,例如 AMD 的 MI300X 和英伟达即将推出的 H100 更新。

有趣的是,是 AMD 开创了 HBM,尽管 NVIDIA 和谷歌是今天最大的用户。在 2008 年,AMD 预测,为了与游戏 GPU 性能相匹配,内存带宽的持续扩展将需要越来越多的电源,这将需要从 GPU 逻辑中转移,从而降低 GPU 的性能。AMD 与 SK Hynix 和供应链中的其他公司 (如 Amkor) 合作,寻找一种能提供高带宽、低功耗的内存解决方案。这导致 SK Hynix 在 2013 年开发 HBM。

SK 海力士于 2015 年首次为 AMD Fiji 系列游戏 GPU 提供 HBM,该 GPU 由 Amkor 进行 2.5D 封装。随后在 2017 年推出了使用 HBM2 的 Vega 系列。然而,HBM 并没有改变游戏 GPU 性能的游戏规则。由于没有明显的性能优势加上更高的成本,AMD 在 Vega 之后重新使用 GDDR 作为其游戏卡。今天,来自 Nvidia 和 AMD 的顶级游戏 GPU 仍在使用更便宜的 GDDR6。

然而,AMD 的最初预测在某种程度上是正确的:扩展内存带宽已被证明是 GPU 的一个问题,只是这主要是数据中心 GPU 的问题。对于消费级游戏 GPU,英伟达和 AMD 已转向使用大型缓存作为顿缓冲区,使它们能够使用带宽低得多的 GDDR 内存。

正如我们过去所详述的,推理和训练工作负载是内存密集型的。随着 AI 模型中参数数量的指数级增长,仅权重就将模型大小推高到 TB。因此,人工智能加速器的性能受到从内存中存储和检索训练和推理数据的能力的瓶颈:这个问题通常被称为内存墙。

为了解决这个问题,领先的数据中心 GPU 与高带宽内存(HBM)共同打包。英伟达在 2016 年发布了他们的第一个 HBM GPU,P100。HBM 通过在传统 DDR 内存和片上缓存之间找到中间地带来解决内存难题,以容量换取带宽。通过大幅增加引脚数,达到每个 HBM 堆栈 1024 位宽的内存总线,这是每个 DIMM 64 位宽度的 DDR5 的 18 倍,从而实现更高的带宽。同时,以极低的每比特传输能量(pJ/bit)来控制功率。这是通过更短的走线长度实现的,HBM 的走线长度以毫米为单位,GDDR 和 DDR 的走线长度以厘米为单位。

如今,许多面向 HPC 的芯片公司正在享受 AMD 努力的成果。具有讽刺意味的是,AMD 的竞争对手 Nvidia 作为 HBM 的最高用户可能受益最多。

HBM 市场:SK 海力士占据主导地位

作为 HBM 的先驱,SK Hynix 是拥有最先进技术路线图的领导者。SK Hynix 公司于 2022 年 6 月开始生产 HBM 3,目前是唯一一家批量交付 HBM 3 的供应商,市场份额超过 95%,这是大多数 H 100 SKU 正在使用的产品。HBM 的最大配置现在 8 层 16 GB HBM 3 模块。SK Hynix 为 AMD MI300X 和 NVIDIA H 100 刷新生产 12 层 24 GB HBM 3,其数据率为 5.6 GT/S。

HBM 的主要挑战是封装和堆叠存储器,这是 SK 海力士所擅长的,积累了最强的工艺流程知识。

三星紧跟 SK 海力士之后,预计将在 2023 年下半年推出 HBM 3。我们相信它们都是为 NVIDIA 和 AMD GPU 设计的。他们目前对 SK Hynix 的数量有很大的亏空,但他们正紧追不舍,正在进行巨大的投资以追赶市场份额。三星正在投资追赶 HBM,成为 HBM 市场份额的第一名,就像他们拥有标准内存一样。我们听说他们正在与一些加速器公司达成有利的交易,以争取更多的份额。

他们已经展示了他们的 12 层 HBM 以及未来的混合粘结 HBM. 三星 HBM-4 路线图的一个有趣方面是,他们希望在内部的 FinFET 节点上实现逻辑/外围。这显示了他们在内部拥有逻辑和 DRAM 制造的潜在优势

美光是最落后的。美光在混合内存立方体(HMC)技术上投入了更多的资金。这是一个与 HBM 竞争的技术,与 HBM 有着非常相似的概念。然而,HMC 周围的生态系统是封闭的,使得 IP 很难在 HMC 周围发展。此外,还存在一些技术缺陷。HBM 的采用率更高,因此 HBM 成为 3D 堆叠 DRAM 的行业标准。

直到 2018 年,美光才开始从 HMC 转向 HBM 路线图。这就是为什么美光是最落后的。他们仍然停留在 HBM2E 上(SK 海力士在 2020 年中期开始大规模生产),甚至不能成功地制造顶盒 HBM2E。

在他们最近的财报电话会议上,美光对他们的 HBM 路线图做了一些大胆的声明:他们相信他们将在 2024 年通过 HBM3E 从落后者变成领导者。HBM3E 预计将在第三季度/第四季度开始为英伟达的下一代 GPU 出货。美光首席商务官 SumitSadana 表示:「我们的 HBM3 斜坡实际上是下一代 HBM3,与当今业界生产的 HBM3 相比,它具有更高水平的性能、带宽和更低的功耗。该产品,即我们行业领先的产品,将从 2024 年第一季度开始销量大幅增加,并对 2024 财年的收入产生重大影响,并在 2025 年大幅增加,即使是在 2024 年的水平基础上。我们的目标是在 HBM 中获得非常强劲的份额,高于行业中 DRAM 的非自然供应份额。」

他们在 HBM 中拥有比一般 DRMA 市场份额更高的市场份额的声明非常大胆。鉴于他们仍在努力大批量生产顶级 HBM2E,我们很难相信美光声称他们将在 2024 年初推出领先的 HBM3,甚至成为第一个 HBM3E。在我们看来,尽管英伟达 GPU 服务器的内存容量比英特尔/AMD CPU 服务器要低得多,但美光科技似乎正在试图改变人们对人工智能失败者的看法。

我们所有的渠道检查都发现 SK 海力士在新一代技术方面保持最强,而三星则非常努力地通过大幅供应增加、大胆的路线图和削减交易来追赶。

真正的瓶颈-CoWoS

下一个瓶颈是 CoWoS 容量。CoWoS 是台积电的一种「2.5D」封装技术,其中多个有源硅芯片 (通常的配置是逻辑和 HBM 堆栈)集成在无源硅中介层上。中介层充当顶部有源芯片的通信层。然后将内插器和有源硅连接到包含要放置在系统 PCB 上的 I/O 的封装基板。

HBM 和 CoWoS 是相辅相成的。HBM 的高焊盘数和短迹线长度要求需要 2.5D 先进封装技术,如 CoWoS,以实现这种密集的短连接,这在 PCB 甚至封装基板上是无法实现的。CoWoS 是主流封装技术,以合理的成本提供最高的互连密度和最大的封装尺寸。由于目前几乎所有的 HBM 系统都封装在 Co Wos 上,所有先进的人工智能加速器都使用 HBM,因此几乎所有领先的数据中心 GPU 都是台积电封装在 Co Wos 上的。

虽然 3D 封装技术,如台积电的 SoIC 可以直接在逻辑上堆叠芯片,但由于热量和成本,它对 HBM 没有意义。SoIC 在互连密度方面处于不同的数量级,更适合用芯片堆叠来扩展片内缓存,这一点可以从 AMD 的 3D V-Cache 解决方案中看出。AMD 的 Xilinx 也是多年前将多个 FPGA 芯片组合在一起的第一批 CoWoS 用户。

虽然还有一些其他应用程序使用 CoWoS,例如网络 (其中一些用于网络 GPU 集群,如 Broadcom 的 Jericho3-AI)、超级计算和 FPGA,但绝大多数 CoWoS 需求来自人工智能。与半导体供应链的其他部分不同,其他主要终端市场的疲软意味着有足够的闲置空间来吸收 GPU 需求的巨大增长,CoWoS 和 HBM 已经是大多数面向人工智能的技术,因此所有闲置空间已在第一季度被吸收。随着 GPU 需求的爆炸式增长,供应链中的这些部分无法跟上并成为 GPU 供应的瓶颈。

台积电首席执行官魏哲家表示:「就在最近这两天,我接到一个客户的电话,要求大幅增加后端容量,特别是在 CoWoS 中。我们仍在评估这一点。」

台积电一直在为更多的封装需求做好准备,但可能没想到这一波生成式人工智能需求来得如此之快。6 月,台积电宣布在竹南开设先进后端晶圆厂 6。该晶圆厂占地 14.3 公顷足以容纳每年 100 万片晶圆的 3DFabric 产能。这不仅包括 CoWoS,还包括 SoIC 和 InFO 技术。

有趣的是,该工厂比台积电其他封装工厂的总和还要大。虽然这只是洁净室空间,远未配备齐全的工具来实际提供如此大的容量,但很明显,台积电正在做好准备,预计对其先进封装解决方案的需求会增加。

确实有点帮助的是,在 Wafer 级别的扇出封装能力 (主要用于智能手机 SoC) 方面存在不足,其中一些可以在 CoWoS 过程中重新使用。特别是有一些重叠的过程,如沉积,电镀,反磨,成型,放置,和 RDL 形成。我们将通过 CoWoS 流程和所有的公司谁看到了积极的需求,因为它在一个后续部分。设备供应链中存在着有意义的转变。

还有来自英特尔、三星和 OSAT 的其他 2.5D 封装技术 (如 ASE 的 FOEB),CoWoS 是唯一在大容量中使用的技术,因为 TSMC 是人工智能加速器的最主要的晶圆厂。甚至英特尔哈巴纳的加速器都是由台积电制造和封装的。


CoWoS 变体

CoWoS 有几种变体,但原始 CoWoS-S 仍然是大批量生产中的唯一配置。这是如上所述的经典配置:逻辑芯片+HBM 芯片通过带有 TSV 的硅基中介层连接。然后将中介层放置在有机封装基板上。

硅中介层的一项支持技术是一种称为「掩模版缝合」的技术。由于光刻工具狭缝/扫描最大尺寸,芯片的最大尺寸通常为 26mmx33mm。随着 GPU 芯片本身接近这一极限,并且还需要在其周围安装 HBM,中介层需要很大,并且将远远超出这一标线极限。台积电解决了这与网线拼接,这使他们的模式插入式多次的刻线限制 (目前最高 3.5 倍与 AMD MI 300)。

CoWOS-R 使用在具有再分布层(RDL)的有机衬底上,而不是硅中间层。这是一个成本较低的变体,牺牲的 I/O 密度,由于使用有机 RDL,而不是基于硅的插入物。正如我们已经详细介绍的,AMD 的 MI300 最初是在 CoWoS-R 上设计的,但我们认为,由于翘曲和热稳定性问题,AMD 不得不使用 CoWoS-S。

CoWoS-L 预计将在今年晚些时候推出,它采用 RDL 内插器,但包含有源和/或无源硅桥,用于嵌入内插器中的管芯到管芯互连。这是台积电的相当于英特尔的 EMIB 封装技术。这将允许更大的封装尺寸,因为硅插入物越来越难以扩展。MI300 Co WO S-S 可能是一个单一的硅插入器的限制附近。

这将是更经济的更大的设计去与 CoWoS-L 台积电正在研究一个 CoWoS-L 的超级载波内插器在 6 倍分划板的大小。对于 CoWOS-S,他们没有提到 4x reticle 之外的任何内容。这是因为硅插入物的脆弱性。这种硅中间层只有 100 微米厚,在工艺流程中,随着中间层尺寸的增大,存在分层或开裂的风险。



关键词:英伟达GPU

评论


相关推荐

技术专区

关闭