新闻中心

EEPW首页>智能计算>市场分析> 详解英特尔144核Sierra Forest、Granite Rapids架构和至强路线图

详解英特尔144核Sierra Forest、Granite Rapids架构和至强路线图

作者:tomshardware 时间:2023-08-30 来源:半导体产业纵横 收藏

在 Hot Chips 2023 上,首次公布了其未来 144 核至强 Sierra Forest 和 Granite Rapids 处理器的详细信息,前者由的新 Sierra Glen e 核组成,而后者采用了新的 Redwood Cove p 核。即将推出的下一代至强芯片将于明年上半年推出,采用全新的平铺式架构,在「Intel 7」工艺上采用双 I/O 小芯片,并在「Intel 3」工艺上蚀刻不同配置的计算核心。这种设计使能够在保持相同底层配置的同时,基于不同类型的核心制作多种产品。

本文引用地址://m.amcfsurvey.com/article/202308/450086.htm

Sierra Forest 和 Granite Rapids 加入了 Birch Stream 平台,具有插座、内存、固件和 I/O 兼容性,提供了简化的硬件验证过程。它们还可以与相同的软件堆栈进行互操作,从而允许客户根据自己的需要使用任意一种芯片。

英特尔声称,下一代至强 Sierra Forest 基于 e- core 的设计将比其第四代至强芯片提供高达 2.5 倍的机架密度和 2.4 倍的每瓦性能,而 P-Core 驱动的 Granite Rapids 将在混合人工智能工作负载下提供 2 到 3 倍的性能,部分原因是内存带宽高达 2.8 倍。本文一起深入了解一下。

Sierra Forest 和 Granite Rapids 架构

英特尔最初在其第四代 Xeon Sapphire Rapids 处理器上采用了基于磁片 (芯片式) 的架构,但 Sierra Forest 和 Granite Rapids 将这种方法推向了一个新的高度。

英特尔采用了 Sapphire Rapids 的四芯片设计,每个芯片包含一部分相关的 I/O 功能,如内存和 PCIe 控制器。新处理器将一些 I/O 功能完全分解为两个独立的 hio 芯片,这些芯片蚀刻在 Intel 7 进程上,这为 I/O 提供了成本、功率和性能的最佳平衡,而 CPU 核心和内存控制器则驻留在它们自己的专用计算芯片上。

两个 HSIO 芯片放置在芯片封装的顶部和底部,中间有一到三个计算芯片,所有芯片都与基片内融合的 EMIB(嵌入式多模互连桥) 互连连接在一起,并连接到桥的每一端的模对模互连。

计算模块将为 Granite Rapids 使用 Redwood Cove p 核 (Performance 核),或为 Sierra Forest 使用 Sierra Glen e 核——英特尔不会在同一包中提供两种核的模型。计算芯片配备了支持 euv 的 Intel 3 进程,该进程具有 Intel 4 进程不包含的高密度库。英特尔最初将 Granite Rapids xeon 从 2023 年推迟到 2024 年,原因是将设计从「Intel 4」改为「Intel 3」,但这些芯片仍按计划将在 2024 年上半年推出。

Granite Rapids 是一个传统的 Xeon 数据中心处理器。这些型号仅配备 P 核,可以提供英特尔最快架构的全部性能。每个 P 核均配有 2MB 的 L2 缓存和 4MB 的 L3。英特尔尚未透露 Granite Rapids 的核心数量,但透露该平台在单个服务器中支持一到八个插槽。

与此同时,Sierra Forest 的 E-core(效率核心) 阵容由只有较小效率核心的芯片组成,就像我们在英特尔的 Alder 和 Raptor Lake 芯片中看到的那样,这使它们能够很好地与在数据中心日益流行的 Arm 处理器竞争。e 核被安排在两核或四核集群中,这些集群共享 4MB 的 L2 缓存片和 3MB 的 L3 缓存。配备 e- core 的处理器拥有多达 144 个内核,并针对最高的功率效率、面积效率和性能密度进行了优化。对于高核数模型,每个 e 核计算芯片拥有 48 个核。Sierra Forest 可以插入单插座和双插座系统,TDP 低至 200W。

无论内核类型如何,每个计算模块都包含内核、L2 和 L3 缓存以及 fabric 和缓存主代理 (CHA)。它们还在芯片的两端安装了 DDR5-6400 内存控制器,总共有多达 12 个通道 (1DPC 或 2DPC) 的标准 DDR 内存,或提供比标准 dimm 多 30-40% 内存带宽的新 MCR 内存。

正如您在上面看到的那样,计算芯片将根据模型有不同的尺寸,单计算芯片产品将带有更大的计算集群。英特尔还将改变每个计算芯片的内存通道数量——这里我们看到一个计算芯片上有三个内存控制器,而两个或更多计算芯片的设计每个有两个内存控制器。英特尔决定将其内存控制器紧密集成到计算芯片中,与 AMD 的 EPYC 设计相比,在某些工作负载下,英特尔的内存性能应该会更好。AMD 的 EPYC 设计在一个中央 I/O 芯片上使用了所有内存控制器,从而增加了延迟。

计算模块与所有其他内核共享 L3 缓存,英特尔将其称为「逻辑单片网格」,但它们也可以划分为 sub-NUMA 集群,以优化某些工作负载的延迟。网格将 L3 缓存片连接在一起,形成一个统一的共享缓存,总容量超过 0.5 gb,几乎是 Sapphire Rapids 的 5 倍。每个模具边界支持超过 TB/s 的带宽之间的模具。

结合起来,两个 HSIO 芯片支持多达 136 个 PCIe 5.0/CXL 2.0 通道 (类型 1,2 和 3 设备),多达 6 个 UPI 链路 (144 通道),以及类似于 Sapphire Rapids 加速引擎的压缩,加密和数据流加速器。每个 HSIO 芯片还包括管理计算芯片的电源控制电路,尽管每个计算芯片也有自己的电源控制,可以在需要时独立运行。英特尔现在已经取消了对芯片组 (PCH) 的要求,从而允许处理器自动启动,就像 AMD 的 EPYC 处理器一样。

英特尔 Sierra Glen E-Core 微架构

Sierra Glen 微架构针对标量吞吐量工作负载 (如横向扩展、云原生和容器化环境) 的最佳效率进行了优化。该架构具有两核或四核集群,允许英特尔提供具有更高每核二级缓存容量和更高每核性能的某些型号 (通过双核模块更高的功率传输)。每个核心集群驻留在相同的时钟和电压域中。E-core 集群共享 4MB 的 L2 缓存片和 3MB 的共享 L3 缓存。

与前几代一样,每个 E-core 都是单线程的。英特尔还将 L1 缓存增加了一倍,达到 64KB,并采用了一个 6 宽解码引擎 (双 3 宽解码引擎可以改善延迟和功耗)、5 宽分配和 8-wide retire。Sierra Glen 内核不支持 AMX 或 AVX-512,而是依赖于 AVX10,但英特尔确实增加了对 BF16, FP16, AVX-IFMA 和 AVX-DOT-PROD-INT8 的支持。

英特尔 Redwood Cove P 核微架构

P 核的 Redwood Cove 架构现在支持带有 FP16 加速的 AMX,这是一个关键的补充,将提高 AI 推理工作负载的性能。英特尔还将 L1 指令缓存容量增加了一倍,达到 64 KB,以更好地处理代码繁重的数据中心工作负载。Redwood Cove 还采用了软件优化的预取和增强的分支预测引擎和错误恢复。英特尔还提高了浮点运算的性能,从 4 周期和 5 周期的 FP 操作提高到 3 周期,从而提高了 IPC。

英特尔至强路线图

对于英特尔来说,好消息是,该公司的数据中心路线图仍在正轨上。Sierra Forest 将于 2024 年上半年上市,Granite Rapids 紧随其后。

在这里,我们可以看到英特尔的路线图与 AMD 的数据中心路线图的对比。目前,AMD 去年推出的 EPYC Genoa 和英特尔今年年初推出的 Sapphire Rapids 之间的高性能之战正在激烈进行。英特尔将在今年第四季度推出 Emerald Rapids 新一代产品,该公司表示,这一代产品将配备更多内核和更快的时钟速率,并且已经发布了内置 hbm 的 Xeon Max cpu。AMD 最近发布了其 5nm EPYC Genoa 产品。明年,英特尔的下一代「Granite Rapids」将与 AMD 的「Turin」展开竞争。

在效率方面,AMD 的 Bergamo 采用了与 Sierra Forest 非常相似的重核方法,利用了 AMD 密集的 Zen 4c 内核。Bergamo 已经上市,而英特尔的 Sierra Forrest 要到 2024 年上半年才会上市。AMD 的第五代 EPYC Turin 芯片将于 2024 年底前推出,但该公司尚未公布其第二代 Zen 4c 芯片。英特尔现在已经将其第二代 e 核驱动的 Clearwater Forest 列入了 2025 年的路线图。



关键词:英特尔

评论


相关推荐

技术专区

关闭