博客专栏

EEPW首页>博客> 自研芯片之后,AWS省了多少钱?

自研芯片之后,AWS省了多少钱?

发布人:旺材芯片 时间:2023-03-22 来源:工程师 发布文章

来源:内容由半导体行业观察(ID:icbank)编译自semianalysis,谢谢。


亚马逊拥有的服务器比世界上任何其他公司都多,尽管它的内部需求比谷歌、微软、Meta 和腾讯小得多。Amazon Web Services (AWS) 长期以来一直是云计算的代名词。AWS 通过迎合初创企业和类似企业的需求,提供可扩展、可靠、低成本的计算和存储解决方案,从而主导了市场。这个引擎推动亚马逊成为世界上最杰出的计算公司,但这种情况正在发生变化。


亚马逊是一家了不起的技术公司,但他们在某些方面有所欠缺。技术实力、文化和/或业务决策将阻碍他们像前两次那样抓住下一波云计算浪潮。本文将涵盖云计算的这 3 个阶段,以及亚马逊在前两个阶段的持续主导地位并不一定让他们在计算未来的战斗中处于领先地位。


我们还将概述亚马逊的各种内部半导体设计,包括 Nitro、Graviton、SSD、Inferentia 和 Trainium。本概述将探讨亚马逊内部半导体雄心的技术和总体拥有成本观点。我们认为,亚马逊故意做的事情会损害其在人工智能和企业自动化领域的地位,并最终导致他们失去计算市场份额。同时,包括Microsoft Azure、Google Cloud、Nvidia Cloud、Oracle Cloud、IBM Cloud、Equinix Fabric、Coreweave、Cloudflare 和 Lambda 在内的厂商,将从多个方向和不同程度上对抗亚马逊的主导地位。

旺材芯片
,赞47

在我们深入研究我们的论文之前,我们需要先上一堂历史课。


AWS 的出现


随着亚马逊零售业务规模的膨胀,它开始遇到其单一的 90 年代软件实践的局限性。在这里,梅特卡夫定律(Metcaff’s law )有点适用——随着每个附加服务或开发人员的增加,复杂性以 n^2 的速度增长。即使是简单的更改或增强也会影响许多下游应用程序和用例,需要大量的沟通。因此,亚马逊将不得不在一年中的某个时间点冻结大部分代码更改,以便假期可以专注于错误修复和稳定性。


亚马逊还存在重复工作和资源的重大问题,只是为了建立一个简单的关系数据库或计算服务。最聪明的工程师通常不是最好的沟通者这一事实加剧了这种情况,当不同团队之间没有共同目标时尤其如此。大型软件项目往往会达到临界质量,组织和应用程序的规模会导致生产力和新功能的实施时间过长。


微软是最早遇到这个问题的公司之一,他们最初通过引入项目经理的角色来解决这个问题。专职人员与开发人员团队交流,管理组织、沟通和规范文档等任务,这在当时是闻所未闻的,但它是一种有效的工具。仅此一项并不能解决所有问题。


亚马逊在多年后遇到了同样的问题,但他们在遇到这些问题时采取了截然不同的方法。亚马逊并没有促进团队之间的沟通,而是试图通过利用“强化接口”来减少沟通。他们从这种单一的软件开发模式转向面向服务的架构。需要明确的是,其他公司和学术界也在实施这项技术,但没有人像亚马逊那样强烈地投入到这项技术中。


亚马逊早期员工 Steve Yegge 回忆起亚马逊的这个关键时刻。以下是他加入谷歌后对亚马逊****雷霆的备忘录的一部分,该备忘录不小心被分享到了网上。


“所以有一天杰夫贝索斯发布了一项授权(mandate)。当然,他一直都在这样做,每当这种情况发生时,人们都会像被橡皮锤敲打的蚂蚁一样争先恐后。但有一次——我想是在 2002 年左右,前后一年——他发布了一项如此公开、如此庞大和令人目瞪口呆的授权,以至于他的所有其他授权看起来都像是未经请求的同行奖金.


他的大使命是沿着这些路线进行的:


  1. 今后所有团队都将通过服务接口公开他们的数据和功能。

  2. 团队必须通过这些界面相互沟通。

  3. 不允许其他形式的进程间通信:没有直接链接,没有直接读取另一个团队的数据存储,没有共享内存模型,没有任何后门。唯一允许的通信是通过网络上的服务接口调用。

  4. 他们使用什么技术并不重要。HTTP、Corba、Pubsub、自定义协议——都无关紧要。贝佐斯不在乎。

  5. 所有服务接口,无一例外,都必须从头开始设计为可外部化的。也就是说,团队必须进行规划和设计,才能将接口暴露给外界的开发者。没有例外。

  6. 任何不这样做的人都会被解雇。

  7. 谢谢; 祝你今天过得愉快!


哈哈!在座的 150 多名前亚马逊员工当然会立即意识到#7 是我开的一个小玩笑,因为贝佐斯绝对不会在乎你的一天。”


这个分享中最具影响力的部分是第 5 个部分,即他们必须能够将这些强化接口外部化。这是AWS的开始。


从此以后!合乎逻辑的进展是以类似的方式抽象出计算和存储硬件。由于许多团队一直在构建服务,并被告知如果他们与其他团队交谈,他们将被解雇,因此没有任何可以想象的方式让 IT 集中规划对服务器的需求以及计算和存储需求的增长。随着团队的服务在内部大受欢迎,他们需要能够为任务配置硬件。


又花了大约 4 年的时间,亚马逊的团队终于采纳了这些想法并创建了后来成为 AWS 的公开产品。


我们将从头快进,更多地谈论这个时代对今天的意义。早期,亚马逊笼络了所有初创公司,让他们能够真正建立自己的业务。虽然大多数早期采用者是 Netflix 和 Twitch 等软件领域的非传统新公司,但创新的硬件公司也都登上了势不可挡的云货运列车。


“这太容易了。对于像我们这样的新公司,您将永远不会再构建传统的数据中心。”Arista 和 Sun Microsystems 的创始人,Google 和 VMware 最早的投资者之一Andy Bechtolsheim说。


亚马逊于 2006 年推出了存储服务 S3。紧随其后的是计算服务 EC2。2009年,提供关系型数据库服务。然后是 Redshift 和 Dynamo DB。在他们的任何竞争对手甚至接近之前,亚马逊已经与客户进行了数百次重要发布。要点是,这个时代的特点是 AWS 只是拥有比其他任何人都更好/更多的产品、应用程序和服务,以及更好的文档。每次谷歌云或微软 Azure 构建一些东西时,亚马逊都会领先很多步和/或更容易使用。


虽然这是事实,尤其是在云的初期,并且在某些类别中一直持续到今天。AWS 出现的故事和生命周期仍在上演,尽管鸿沟已大大缩小。亚马逊让人们使用****付款的模式扰乱了 6 位数或 7 位数服务合同的传统业务,并将继续这样做。第一波云计算浪潮有一条长长的尾巴。


AWS 的王牌——规模(Scale)


随着过去十年中期的到来,大多数财富 500 强公司也开始向云迁移。随着云计算市场的成熟,其他公司认识到了这个机会并开始大力投资他们的云产品。尤其是 Microsoft Azure,通过利用其对企业友好的方法成为强有力的竞争者。虽然谷歌云平台最初因缺乏商业重点而难以获得市场份额,但此后它改进了产品并将很快实现盈利。


竞争变得越来越激烈,但亚马逊有一张王牌——规模。


有两种方法可以看待这种规模优势。首先是从lens来看,亚马逊实际上只是更大,在云空间中的足迹比其他任何人都多。云服务提供商需要一定程度的规模来利用其规模以较低的价格购买硬件并分摊其软件和硬件设计成本。


云服务提供商还需要准备好一定数量的容量供其他人随时使用,这一点尤其重要。因为云服务提供商不能只集中计划其服务器的利用率。即使是长期合同,也常常伴随着何时使用信用额度的高度不确定性。同时,云提供商必须具有高利用率才能获得足够的投资回报率 (RoIC)。你越大,就越容易实现那些高利用率,并有足够的过剩产能供客户增加和减少。


由于云市场的规模意味着多家公司可以达到最小可行临界质量,因此这个lens的持续时间大多有限。亚马逊击中了那个曲棍球棒的时刻,大约是在 2010 年代的早期到中期。到了2012 年,亚马逊实现了自成立以来的对 AWS 进行了 23 次降价,到 2015 年他们总共进行了 51 次。尽管竞争开始升温,但 2017 年时代后降价明显放缓,尽管私人两位数百分比折扣非常普遍。至少,微软和谷歌也早就达到了这种规模水平。在专门的应用程序中,其他云也达到了有意义的规模,例如 CDN 中的 Cloudflare 或 AI 服务器中的 Oracle。


更重要的规模角度来自专用半导体的lens,无论是内部还是与生态系统中的合作伙伴。亚马逊和谷歌是这一转型中最重要的领导者,但每家超大规模公司都已经开始部署至少一些内部芯片。这涵盖了从网络、通用计算和ASIC。


亚马逊也通过定制芯片节省了大量成本,这是竞争对手难以复制的,尤其是在标准 CPU 计算和存储应用程序中。定制芯片为云提供商带来 3 大核心优势。


1、通过架构创新为您独特的工作负载设计芯片以获得更高的性能。

2、对某些工作负载进行战略控制和锁定。

3、通过消除无晶圆厂设计公司的利润堆叠来节省成本。


当涉及到新的业务部门、部门或基础设施变化时,亚马逊过去是,现在仍然是,以一种非常有创业精神的方式运营。他们的团队在很多方面都保持灵活和小规模,但他们仍然得到背后这个庞然大物组织的全力支持。我们最喜欢的与此相关的故事是他们开始定制芯片。


Amazon Nitro


早在 2012 年,AWS 的一名工程师就有了一个想法。为什么不在每个 EC2 实例和外部世界之间放置一个“加密狗”(dongle),一种专用硬件,以便所有数据都可以通过它流动?这个加密狗将运行安全、网络和虚拟化任务,例如管理程序。“加密狗”的好处将直接提高 EC2 实例的性能、成本和安全性,同时还支持裸机实例。最初的一个小想法能够变成亚马逊的整个定制芯片工作,它设计了许多不同的芯片并每年为他们节省数百亿美元。


AWS 制定了支持这种加密狗想法的定制芯片的规范。要求很简单,一个基于 Arm 的双核片上系统 (SoC),可以连接 PCIe。在与几家公司接洽后,AWS 与Cavium合作,以避免构建定制 SoC导致每台 EC2 服务器成本大幅增加的挑战,由此产生的 Cavium 部件很快就交付了。整个系统,在独立的 PCIe 卡和相关软件上带有定制的 SoC,被命名为“Nitro 系统”。它首次出现(尽管最初并未公开讨论)在 C3、R2 和 I2、EC2 实例中。


到 2022 年 8 月,AWS 部署了四代、超过 2000 万个 Nitro 部件,每台新的 EC2 服务器都至少安装了一个 Nitro 部件。


这种“加密狗”的主要成本优势是它卸载了亚马逊的管理软件,即管理程序,否则它会在现有的 CPU 上运行。亚马逊基础设施中最常部署的 CPU 过去是,现在仍然是英特尔 14 纳米 24 核 CPU。直到今天,Microsoft Azure 等其他云在非客户的工作负载上占用了多达 4 个 CPU 内核。如果这在亚马逊的所有基础设施中都适用,那么现有服务器的虚拟机数量将减少约 15%,从而减少收入。


即使对每个 Nitro 节省 2 个 CPU 内核的更为保守的估计(每内核成本保守估计约为四分之一的保留标价),那么Nitro每年节省的成本也超过 70 亿美元。


图片


将这些工作负载从服务器 CPU 内核转移到定制的 Nitro 芯片不仅大大降低了成本,而且由于消除了与管理程序相关的嘈杂相邻问题(例如共享缓存、IO 带宽和功率/热量预算)而提高了性能。


此外,客户还可以通过在管理程序管理层和服务器之间增加air gap来提高安全性。这种物理隔离消除了来自恶意租户的边信道升级攻击的可能载体。


除了管理程序卸载节省,随着 Nitro 的发展,它还在许多网络工作负载中发挥了核心作用。例如,可以卸载 IPsec,仅此一项就可以为亚马逊的每个主要客户节省数百万美元。


图片


亚马逊定制芯片工作的核心直接来自他们与 Annapurna Labs 的合作以及后来在 2015 年对 Annapurna Labs 的收购。Annapurna 专注于用于网络和存储的服务器 SOC。应该注意的是,Nitro 不仅仅是 1 个芯片,尽管我们是这样称呼它的。但其实对于不同的用例,Nitro有多个版本和多个变体。


Amazon 在 EC2 之外的大多数顶级服务都与存储和数据库有关。Nitro 是亚马逊在这些工作负载中获得持久竞争优势的主要推动因素。传统的服务器架构在每台服务器中至少放置了一些存储,这导致未使用的资源大量搁置。


图片


亚马逊能够从每台服务器上移除该存储并将其移动到集中式服务器中。然后客户租用的服务器可以从网络存储启动。即使使用高性能 NVMe SSD,Nitro 也能做到这一点。这种存储架构的转变帮助亚马逊极大地节省了存储成本,因为客户不需要为超出他们想要使用的存储量支付任何费用。客户可以无缝地动态扩展和收缩他们的高性能存储池。


从使用通用硬件的计算和网络角度来看,这是极其昂贵的,但由于在内部特定于工作负载的 ASIC 上,Nitro 可以以较低的成本向租户的虚拟机提供虚拟磁盘等服务。


图片


亚马逊对存储的关注延伸到与 Marvell共同设计“AWS Nitro SSD”控制器。这些 SSD 专注于避免延迟峰值和避免延迟可变性,以及通过 Amazon 管理的高级磨损均衡最大限度地延长 SSD 的使用寿命。未来的变体将包括一些计算卸载以提高查询性能。


其他 2 大云也在尝试走同样的路线,但他们落后了很多年,并且需要一个需要一定利润的合作伙伴。谷歌选择使用定制芯片与共同设计的英特尔 Mount Evans IPU,而微软则结合了 AMD Pensando DPU,并最终在内部开发了用于存储用例的基于 Fungible 的 DPU。在接下来的几年里,这两个竞争对手都将坚持使用第一代或第二代商用芯片。


亚马逊正在安装他们内部设计的第 5 代 Nitro 。从基础设施成本的角度来看,Nitro 带来的优势不可低估。它可以大大降低亚马逊的成本,然后可以将成本转嫁给客户,或者带来更高的利润。


Arm进一步走向AWS


虽然 Nitro 确实使用了基于 Arm 的 CPU 内核,但关键在于各种固定功能的特定于应用程序的加速。AWS 对基于 Arm 的定制芯片的兴趣不仅限于将他们自己的工作负载卸载到专用硬件。2013 年,AWS 对使用自己的芯片的想法有了更进一步的发展。在一份名为“AWS Custom Hardware”的文档中,工程师 James Hamilton 提出了两个关键点。


  1. 服务器功能最终将整合到一个 SoC 中。因此,要在云中进行创新,AWS 需要在硅片上进行创新。

  2. 移动和物联网平台上出货的 Arm CPU 数量将使投资能够创建基于 Arm 的出色服务器 CPU,就像英特尔能够在客户端业务中利用 x86 接管 90 年代和 00 年代的服务器 CPU 业务一样。


最终的结论是,AWS 需要做一个定制的 Arm 服务器处理器。顺便说一句,如果这份文件在其成立 10 周年之际公开发布以展示它的远见,那将是一件令人惊奇的事情。让我们扩展 James Hamilton 的这篇论文,看看使用 AWS 设计的基于 Arm 的 CPU 与外部同类产品相比可以提供优势的两种主要方式。


首先,它们为 AWS 提供了一种降低成本并为客户提供更好价值的方法。它将如何实现这一目标?根据 James Hamilton 的观点,它可以通过使用 Arm 设计的 Neoverse 核心来利用 Arm 在移动领域的规模。它还可以利用台积电的制造规模,该规模远超英特尔,主要是由于智能手机市场。当然,使用台积电还可以获得领先的工艺节点,领先于英特尔。


我们估计到 2022 年亚马逊的内部 Graviton 2 和 3 CPU 将达到近 100 万个。仅这一数量就足以证明将核心设计外包给 Arm 的内部 CPU 计划是合理的,尤其是在亚马逊继续替代 AMD 和Intel 的CPU 是自己采购的。亚马逊的垂直整合策略是显而易见的,即使唯一的好处是更便宜的 CPU。


图片


将亚马逊的 Graviton 单位体积与一般市场进行比较,与英特尔和 AMD 相比仍然相形见绌。虽然我们认为亚马逊凭借其内部安装在 Arm 服务器领域的出货量超过了Ampere Computing ,但与 x86 供应商相比仍有很大差距。


图片


现在,如果我们检查平均销售价格,由于 48 核和 64 核服务器 CPU 的高度组合以及无与伦比的 IO 能力,AMD 获得了业内最高的销售价格。Ampere Computing 的 ASP 相似,大约在 600 美元左右。我们使用了我们自己对 Graviton 2 和 Graviton 3 的制造、包装和测试成本的估算。请注意,IP 许可成本未计算在内,但可能不会那么高,因为亚马逊与 Arm 达成了一个非常友好的合作协议。


图片


如果假设 CPU 是 1 对 1 的替代品,那么亚马逊改用内部芯片可为他们节省数亿美元。当然,并不是所有的 CPU 都是平等的。即使是 AMD 的上一代 Milan 在许多方面仍然比英特尔、亚马逊或Ampere 当前一代芯片更快。即使忽略异常值,Graviton 在 2022 年的潜在节省也超过 3 亿美元。现在,亚马逊的 CPU比英特尔的性能更高。同时,功耗更低。这一事实层出不穷,节省的资金开始快速增长。我们认为 Graviton 的总开发成本可能在每年约 1 亿美元的范围内,这为他们节省了超过 2 亿美元。


商业芯片供应商正在不可逆转地损失数亿美元,并很快损失数十亿美元的 TAM。英特尔是这里最大的输家,从一家将数百万个 CPU 销售到云端的芯片公司,转变为一家对这些 Graviton3 CPU 进行利润率显着降低的封装的制造公司。


同样重要的是,内部 CPU 使亚马逊能够设计 CPU 以最大限度地提高密度并最大限度地减少服务器和系统级能源,这对总体拥有成本有很大帮助。一个易于理解的工程决策是,亚马逊将 Graviton 3 设计为只有 64 个内核,尽管它有足够的空间来扩展芯片尺寸和功率。


将此与AMD 的 96 核 Epyc 进行对比,后者速度更快,但也具有更高的功率。亚马逊有意识的工程决策使他们能够在每个 1U 服务器上放置 3 个CPU。同时,AMD Genoa服务器每 1U 最多 2 个 CPU,并且由于功率限制,它通常最终成为 2U 大小的服务器。一些与 AMD 和英特尔不同的更细微的工程选择围绕着 Graviton 的是后者是云原生的。


当然,我们不应忘记,竞争也增加了英特尔和 AMD 降低 CPU 价格的压力。AWS 也节省了他们的 x86 CPU!AMD 和英特尔必须在很大程度上超越亚马逊,以证明他们在商业芯片上的巨额利润是合理的。我们毫不怀疑 AMD 在设计 CPU 内核和 SoC 方面更胜一筹,而英特尔也可以做到这一点,但他们是否可以超过 2 倍以证明其约 60% 的数据中心利润率是合理的?毫无疑问,这是个艰难的提议。


微软和谷歌都在进行内部服务器 CPU 方面的工作,但他们还没有批量安装任何东西。即使他们做到了,也很难想象他们能够击败亚马逊的第三代或者第四代产品。亚马逊的巨大规模,尤其是在通用计算和存储相关的垂直领域,不容小觑。这将在未来许多年继续推动云计算的持久优势。


下一个计算时代


到目前为止,我们只是对亚马逊赞不绝口,但在我们甚至可以开始谈论云服务提供商的未来之前,必须介绍亚马逊优势的背景和现实。


总的来说,亚马逊、半导体和科技都是 S 型曲线的故事。亚马逊作为一家公司,致力于不断发展。他们从未真正退出投资周期。在很多方面,他们在文化上都具备总能找到下一件大事的能力,而不一定是在他们的毒牙扎进去后就榨取最大价值。


亚马逊的文化、围绕其云服务提供商模型的有意识的商业决策,以及与定制计算和网络芯片相关的技术选择,可能会让他们在下一个计算时代束手无策。虽然云的前两个时代将继续发挥作用,亚马逊将从成为寡头垄断市场中领先的不受监管的公用事业公司中获取巨大价值,但下一个时代不一定属于他们。来自现有竞争对手和领先的新竞争对手的巨大竞争压力。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。



关键词:自研芯片

技术专区

关闭