新闻中心

EEPW首页>智能计算>市场分析> 液冷AI服务器,出现瓶颈

液冷AI服务器,出现瓶颈

作者: 时间:2024-07-24 来源:半导体产业纵横 收藏

业内人士称,液冷解决方案的通用快速断开装置(UQD)供应已趋于紧张,这可能成为 AI 服务器液冷增长的主要瓶颈。

本文引用地址://m.amcfsurvey.com/article/202407/461343.htm

服务器 ODM 厂商指出,Nvidia 的 Blackwell AI 芯片,包括 B100 和 B200,将于今年开始出货,但 GB200 解决方案要到 2024 年底或 2025 年才会开始量产。

B100、B200 客户目前大多仍采用风冷散热设计,不过据 ODM 厂商反映,液冷渗透率持续提升,预估随着 Blackwell 芯片出货量的增加,客户采用液冷的意愿也会提升。

扩大产能以应对液体冷却需求的增加

相关企业纷纷扩大生产,迎接液冷新时代。散热模块厂商晶晨科技计划将水冷板月产能从 3 万片提升 10 倍至 30 万片。

Auras 在泰国设立新工厂,以响应客户的地缘政治担忧和要求。该工厂预计将于第三季度开始量产。除了扩大冷板的本地产能外,Auras 还计划在本地生产冷却分配单元 (CDU) 和冷却液分配歧管 (CDM),计划月产能约为 2,000-3,000 套。

散热模组厂 AVC 在近期财报电话会议上指出,其中国及越南工厂的冷板模组月产能约为 11.5 万台,若以冷板计算,则月产量约 42 万台,AVC 计划年底前将产能扩大 50%。

AVC 还计划将 CDU 的月产能扩大至 1,000 台,将 CDM 的月产能扩大至 30,000 套。AVC 强调,这一计划产能可根据客户订单需求灵活调整。

热能技术公司高力热处理因客户对液冷产能需求增加,正扩大台湾中坜厂区产能,预计第三季末 CDM 月产能将从 1,000 台增至 2,000 台,年底将增至 4,000 台,行内 CDU 年产能也将在年底达到 2,000 台。

上述厂商均对液冷需求抱有较高期待,主要原因在于中国与欧盟的运算效率与数据中心 PUE 规范,但最重要因素还是 Nvidia 解除了对芯片厂商散热规格自我限制。

液冷快速增长导致 UQD 短缺

在大家热切期盼液冷时代来临之际,UQD 成为成长的最大瓶颈,散热模块厂指出,近期 UQD 供货吃紧,虽然液冷目前市占率只有个位数,但未来若上升至两位数,UQD 恐将一票难求。

UQD 供应商多来自欧美,如美国大厂 Parker Hannifin 与 CPC、瑞士 Staubli International、丹麦 Danfoss、瑞典 Cejn 等,台湾连接器零组件大厂 Lotes 也积极入市,并已开始送样。

安博科技董事长梁志坚指出,由于液冷最看重的是避免泄漏,而 UQD 是最容易发生泄漏的元件,因此 UQD 的供货是液冷元件中最紧张的。这不仅是技术问题,相关厂商也有专利保护,安博科技正在研究如何突破这些专利壁垒。

业界表示,UQD 厂商有专利保护,但同时也需要经过层层验证,包括 OCP 认证、客户端验证等耗时耗力,加上现有欧美厂商无扩充产能意向,将成为液冷快速发展的主要瓶颈。

Supermicro 是成长最快的液冷厂商之一,创始人兼首席执行官梁见后指出,过去 30 年,液冷仅占服务器市场的 1%,但他预估 2025 年渗透率将跃升至 30%。

液体冷却成为潜在解决方案,人工智能繁荣给电网带来压力

生成式人工智能的快速发展推动了数据中心前所未有的扩张,引发了人们对其对电网影响的担忧。这些耗电设施可能会导致停电并增加能源成本。

据电力研究所估计,到 2030 年,数据中心可能消耗美国 9% 的电力,是目前的两倍。一个大型数据中心的用电量相当于数十万户家庭的用电量。

人工智能不断增加的电力需求尤其令人担忧。早期的人工智能模型消耗的电量是谷歌搜索的十倍,而较新的芯片对能源的需求甚至更高。专家警告称,未来人工智能的发展可能会受到我们产生足够电力的能力的限制。

一些国家面临严峻挑战。例如,到 2026 年,爱尔兰可能会有 30% 的电力用于数据中心。在美国,数据中心的用电集中在 15 个州,其中得克萨斯州和弗吉尼亚州最多。加利福尼亚州的情况危急,预计新建的数据中心可能会产生超过核电站发电量的电力需求。

数据中心:巨大的能源消耗和液体冷却的兴起

人工智能的计算需求正在推高服务器温度和碳排放,从而导致冷却系统需求大幅增加。冷却系统占数据中心总电力消耗的 40%,是仅次于服务器本身的第二大电力消耗来源。

全球服务器冷却市场预计将从 2024 年的 200 亿美元增长到 2027 年的 900 亿美元。数据中心的液体冷却系统预计将从 1% 增加到 22%,市场价值在未来三年内从 3.17 亿美元增长到 78 亿美元。

使用水或冷却剂来冷却服务器的液体冷却解决方案正日益流行。新技术包括浸入式冷却(将整个服务器机架浸入非导电液体中)和直接液体冷却(在服务器周围循环水)。虽然目前比空气冷却系统更昂贵,但液体冷却可以将数据中心的功耗降低 10% 或更多。

研究公司 Global Market Insights 预测,全球数据中心液体冷却市场规模将从 2022 年的 21 亿美元增长到 2032 年的 122 亿美元。Uptime Institute 的一项调查发现,16% 的数据中心经理认为液体冷却将在 1-3 年内成为数据中心的主要冷却方法,而 41% 的人认为这将需要 4-6 年。因此,混合冷却方法在短期内更有可能出现。

数据中心风冷系统管理领域的领导者 Upsite Technologies 指出,虽然技术在不断进步,但短期内不太可能实现 100% 液冷数据中心,液冷设备仍然需要风冷来散热。

虽然液体冷却也更高效,但难以大规模实施,而且需要大量的前期投资。空气冷却成本较低,但效率较低。因此,混合冷却设施正变得越来越受欢迎,以最大限度地发挥液体和空气冷却的优势。

数据中心能源危机引发紧急行动呼吁

由于数据中心对环境的影响,它们受到越来越多地关注。世界各国政府都在实施法规,以控制其能源消耗和碳足迹。中国的「绿色数据中心」指南以及德国、新加坡和日本的类似举措就是这一趋势的例子。

施耐德电气等行业专家强调,需要采用全面的环境指标来评估数据中心的可持续性。这包括能源使用以外的因素,例如水资源和废物产生。

美国政府正在向大型科技公司施压,要求他们投资清洁能源,并认识到生成人工智能不断增长的电力需求对环境产生的重大影响。

寻找合适的电源:数据中心和能源挑战

数据中心需要多样化的能源组合,以平衡可靠性和可持续性,满足不断增长的需求。

太阳能和风能等可再生能源因其低碳足迹而颇具吸引力。然而,它们对天气条件的依赖可能导致输出不稳定,因此不适合作为数据中心的唯一电源。建造冗余设施来弥补这种不一致性可能是必要的,但成本很高。

核电成为一种潜在的解决方案。传统核电站提供可靠的基载电力,产生对数据中心运营至关重要的稳定电力。此外,全球核电市场预计将在未来十年实现稳步增长。

核能领域的创新提供了更多有希望的可能性。小型模块化反应堆 (SMR) 正在开发中,作为传统核电站的更小、更安全、更具可扩展性的替代品。虽然仍处于研发阶段,但 SMR 有可能直接部署在数据中心,提供专用的清洁能源。

然而,SMR 的广泛应用面临重大障碍。监管和制造方面的挑战可能会使其商业部署推迟数年。美国政府正在积极探索解决方案,包括与科技巨头合作以降低成本并简化流程。

减少数据中心能源需求的另一种方法是优化人工智能工作负载。通过将一些人工智能任务从云端转移到具有较小、资源密集度较低的人工智能模型的本地设备,可以降低总体能耗。

数据中心的未来发展需要多管齐下。采用多元化的能源组合,包括核能等可靠能源,同时积极寻求 SMR 等可再生和创新解决方案至关重要。此外,优化本地设备上的 AI 工作负载可以进一步促进数据中心的可持续发展。



关键词:液冷AI服务器

评论


技术专区

关闭