摩尔线程CEO张建中：万卡集群是AI主战场上的标配

作者：时间：2024-07-11 来源：半导体产业纵横

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

「从今天起，世界彻底改变了。」这是 GPT-3 算法的发明人埃德·莱昂·克林格在 GPT-3 出现时说的一句话。

本文引用地址：//m.amcfsurvey.com/article/202407/460864.htm

这是一个 AI 的时代，这是一个算力的时代。

今日，摩尔线程重磅宣布其 AI 旗舰产品夸娥（KUAE）智算集群解决方案实现重大升级，从当前的千卡级别大幅扩展至万卡规模。

同时，摩尔线程联合中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司，分别就三个万卡集群项目进行了战略签约，多方聚力共同构建好用的国产 GPU 集群。

此外，我们从现场也看到摩尔线程的产品能力和强大的生态链接力。与来自清华系两家公司无问芯穹和清程极智已经开始深度合作，无问芯穹是由清华大学电子工程系系主任汪玉教授发起的，清程极智由清华大学计算机系郑纬民院士发起的。还有京东、360、智平方等多家国内企业，夸娥智算集群助力其在大模型训练、大模型推理、具身智能等不同场景和领域的创新。

万卡是最低标配

大模型自问世以来，关于其未来的走向和发展趋势亟待时间验证，但从当前来看，几种演进趋势值得关注，使得其对算力的核心需求也愈发明晰。

第一，Scaling Law 将持续奏效。需要单点规模够大并且通用的算力才能快速跟上技术演进。第二，Transformer 架构不能实现大一统，和其他架构会持续演进并共存，形成多元化的技术生态。第三，AI、3D 和 HPC 跨技术与跨领域融合不断加速，大模型的训练和应用环境更加复杂多元。

随着计算量不断攀升，大模型训练亟需超级工厂，即一个「大且通用」的加速计算平台，以缩短训练时间。以 Llama 3 为例，在它问世之际，Meta 就公布了其基础设施详情：「我们在两个定制的 24K GPU 集群上做训练。」

摩尔线程创始人张建中提出了一个标准：「AI 主战场，万卡是最低标配。」

国产万卡万 P 万亿大模型训练平台

夸娥（KUAE）是摩尔线程智算中心全栈解决方案，是以全功能 GPU 为底座，软硬一体化、完整的系统级算力解决方案，包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台（KUAE Platform）以及夸娥大模型服务平台（KUAE ModelStudio），旨在以一体化交付的方式解决大规模 GPU 算力的建设和运营管理问题。

基于对 AI 算力需求的深刻洞察和前瞻性布局，摩尔线程夸娥智算集群可实现从千卡至万卡集群的无缝扩展，旨在满足大模型时代对于算力「规模够大+计算通用+生态兼容」的核心需求，通过整合超大规模的 GPU 万卡集群、极致的计算效率优化以及高度稳定的运行环境，以万卡智算集群的新超级工程，重新定义国产集群计算能力的新标准。

夸娥万卡智算解决方案具备多个核心特性：

超大算力，万卡万 P。浮点运算能力达到 10Exa-Flops，大幅提升单集群计算性能，能够为万亿参数级别大模型训练提供坚实算力基础。
超高稳定，月级长稳训练。在集群稳定性方面，摩尔线程夸娥万卡集群平均无故障运行时间超过 15 天，最长可实现大模型稳定训练 30 天以上，周均训练有效率在 99% 以上，远超行业平均水平。
极致优化，超高 MFU：实现大模型的高效率训练，MFU 最高可达到 60%。在系统软件层面，基于极致的计算和通讯效率优化等技术手段，大幅提升集群的执行效率和性能表现。
全能通用，生态友好：可加速 LLM、MoE、多模态、Mamba 等不同架构、不同模态的大模型。s 同时，基于高效易用的 MUSA 编程语言、完整兼容 CUDA 能力和自动化迁移工具 Musify，加速新模型「Day0」级迁移，实现生态适配「Instant On」，助力客户业务快速上线。

构建万卡集群并非一万张 GPU 卡的简单堆叠，而是一项高度复杂的超级系统工程。它涉及到超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等诸多技术难题。

张建中也感叹到：「万卡集成的难度比登喜马拉雅山还难。」

共建大模型应用生态

根据《2023~2024 年中国人工智能计算力发展评估报告》，中国智能算力规模正处于高速增长状态。预计到 2027 年，中国智能算力规模将达 1117.4EFLOPS，2022~2027 年期间的年复合增长率为 33.9%。

万卡集群的建设需要产业界的齐心协力，为实现大模型创新应用的快速落地，让国产算力「为用而建」。

在今日的发布会线程，摩尔线程携手中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司，分别就青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目进行了战略签约。

今年 5 月，摩尔线程与无问芯穹正式完成基于国产全功能 GPU 千卡集群的 3B 规模大模型实训。该模型名为「MT-infini-3B」。MT-infini-3B 模型训练总用时 13.2 天，经过精度调试，实现全程稳定训练不中断，集群训练稳定性达到 100%，千卡训练和单机相比扩展效率超过 90%。在行业内率先开启了国产大语言模型与国产 GPU 千卡智算集群深度合作的新范式。

清程极智与摩尔线程合作的过程中，发现其硬件架构、指令集、编译器、MUSA 软件栈等设计非常优秀，极具潜力。清程极智将与摩尔线程强强联合，携手打造世界水平的大模型基础设施。

此外，摩尔线程还与360、京东云、智平方等多家国内企业合作。

结语

随着今年「AI+」首次被写入两会工作报告，AI 算力成为新质生产力的重要引擎。

智算中心不应只是硬件的堆积，更是对软硬一体化的 GPU 智算系统整合能力的考验，GPU 分布式计算系统的适配、算力集群的管理和高效推理引擎的应用等，都是提高算力中心可用性的重要因素。

四年多的潜心发展，摩尔线程在 AI GPU 方面具备了强劲的实力，构建起了一张包括芯片、板卡、服务器、集群和软件栈的全栈 AI 产品版图，并且已经多点实现落地。

正如摩尔线程创始人兼 CEO 张建中所言：「当前，我们正处在生成式人工智能的黄金时代，技术交织催动智能涌现，GPU 成为加速新技术浪潮来临的创新引擎。夸娥万卡智算集群作为摩尔线程全栈 AI 战略的一块重要拼图，可为各行各业数智化转型提供澎湃算力，不仅有力彰显了摩尔线程在技术创新和工程实践上的实力，更将成为推动 AI 产业发展的新起点。」

新闻中心

摩尔线程CEO张建中：万卡集群是AI主战场上的标配

万卡是最低标配

国产万卡万 P 万亿大模型训练平台

共建大模型应用生态

结语

评论

相关推荐

技术专区