• 正文
  • 相关推荐
申请入驻 产业图谱

WAIC火出圈的神器-华为CloudMatrix384?到底隐藏了什么逆天的底层创新?能超英伟达

07/30 10:55
3007
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

在持续升级的芯片封锁打压环境下,华为于2025年7月27日在世界人工智能大会(WAIC)逆境推出CLoudMatrix 384超节点系统(Atlas 900 A3 SuperPoD),标志着中国在高端AI算力领域取得重大突破。

作为全栈国产化的超级AI服务器,该系统通过架构创新将384颗昇腾910C NPU与192颗鲲鹏CPU整合为统一计算单元,单卡推理吞吐高达惊人的2300 tokens/秒,为受限环境中的大模型训练提供新的算力选择。

任总的智慧-逆天的底层创新:全对等互联架构与软硬协同杀手锏

1. 任总的智慧-用数学补物理的方式设计系统架构

CloudMatrix 384的本质是“超节点”(Super Node)——它突破传统服务器集群概念,通过全栈技术创新将整个系统构建为单一致性计算实体。其设计哲学源于华为创始人任正非的战略判断:当单芯片性能受限时,可通过数学优化和集群协同弥补个体差距。

三大创新关键点

拓扑重构:采用自主MatrixLink网络技术取代传统以太网,实现跨机柜全对等互联,使384颗NPU如同单芯片般协同。

资源虚拟化:将分散的硬件资源(内存/存储/加速器)抽象为统一服务池,消除数据孤岛。

软硬协同:针对MoE(专家混合)等新兴模型优化通信协议,提升有效算力占比。

从物理部署看,单套系统需配置559kW高功率机柜并采用浸没式液冷散热。其核心硬件包含6912个400G LPO光模块构建光互联网络,磷化铟衬底等材料用量显著增加。这种设计虽推高功耗,但规避了芯片制程限制,体现了“以空间换性能”的工程智慧。

2. 硬件架构设计

CloudMatrix384 采用 全对等互联总线(UB 网络) 技术,基于 Clos 架构实现 384 颗昇腾 NPU 和 192 颗鲲鹏 CPU 的无阻塞高速互联。通过定制化光通信模块,单卡间单向带宽达 392GB/s(约为传统 RoCE 网络的 15 倍),传输延迟从 10 微秒降至 1 微秒以内。这种架构突破了传统集群的 “南北向带宽瓶颈”,实现数据在芯片间的直接传输,尤其适合 MoE 模型中高频 token 分发场景,通信效率提升 70% 以上。

昇腾NPU 与鲲鹏 CPU 协同

昇腾910 基于达芬奇架构,集成 32 个 3D Cube 计算引擎,单芯片 FP16 算力达 256 TFLOPS,支持动态流水并行和分布式训练。鲲鹏 920 采用 ARM v8.2 架构,64 核设计,内存带宽达 640Gbps,通过 HCCS 互联协议实现 CPU 间 480Gbps 高速通信。

两者通过统一内存视图技术,使 NPU 可直接访问 CPU 内存,KV 缓存命中率提升至 56%,数据访问延迟从毫秒级降至微秒级。

3. 软件栈深度优化

MatrixResource:基于拓扑感知动态分配资源,避免跨节点通信瓶颈。

MatrixCompute:支持超节点实例的自动扩缩容,在 15ms 严苛延迟约束下仍维持 538 token/s 解码吞吐量。

昇腾CANN 框架:通过算子融合(如 MLAPO 超级算子)和编译优化,使 DeepSeek-R1 模型推理效率达 4.45 token / 秒 / TFLOPS,超越 H100 的 3.75 token / 秒 / TFLOPS。

昇腾云脑运维:实现万卡集群故障10 分钟内恢复,光模块故障影响降低 96%,保障任务连续性。

CloudMatrix384是一个超节点,也是一个AI智算集群。

AI智算集群分为两种模式,一种是Scale Up,另一种是Scale Out。

Scale Up是纵向扩展,增加单节点内的GPU/NPU算卡数量。Scale Out是横向扩展,增加节点的数量。

规定超过16卡以上的Scale Up系统,就是超节点。CloudMatrix384是超节点中规模最大的。

如果把384个卡“绑定”在一起,算力就会进行相应的叠加呢?

答案当然是否定的。

CloudMatrix384发布之后,很多人都只关心算力的大小,但实际上,这款产品最大的亮点,在于它的设计理念。

华为在发布会上反复强调了三句话,即:“一切可池化”“一切皆对等”“一切可组合”

看懂了这三句话,才能真正看懂这款产品,这才是这款产品的核心之处。

通俗理解一下这三句话的意思:

一切可池化,指的是在CloudMatrix384中,所有的资源都在资源池里。包括NPU,也包括CPU、内存、网络。(英伟达仅实现了GPU池化。)

一切皆对等,指的是资源池里的资源不再是主从式关系,而是对等关系。传统的以CPU为中心的计算方式,已经转变为更高效、更灵活的CPU与NPU等对等架构。

一切可组合,指CloudMatrix384中池化的资源,可以根据不同的任务需求,像搭积木一样,进行灵活调配组合。

CloudMatrix?386架构将NPU、CPU、内存、网卡等所有资源完全融合变成可拓展的资源池,转化成了“由单算力转向混合算力,由单机转向集群,由传统应用松散分布转向多样应用紧密融合”,是一个真正对等互联的超节点架构。

与英伟达H100/GB200的巅峰对决在不久的将来

选取英伟达代表方案作为参照:

指标 CloudMatrix 384 GB200 NVL72 H100单卡
芯片数量 384×Ascend 910C 72×B200 1×H100
峰值算力(BF16) 300 PFLOPs 180 PFLOPs 0.67 PFLOPs
内存带宽 1229 TB/s 582 TB/s 3.35 TB/s
内存容量 3.6×NVL72 (基准) 80 GB
单卡推理吞吐 2300 tokens/s 980 tokens/s 1050 tokens/s
互连时延 200 ns 500 ns 900 ns
系统功耗 559 kW 136 kW 0.7 kW
光模块数量 6912个400G 未公开 N/A

优势:

系统级算力密度与能效
CloudMatrix384 单集群算力达 300 PFlops,是 H100 NVL72 集群的 1.67 倍。通过液冷技术,PUE 低至 1.1,功耗 172.8kW,较 H100 方案降低 40%。在 DeepSeek-R1 推理中,单卡解码吞吐量 1943 token/s,与 H100 持平,但计算效率(token/TFLOPS)高出 18.7%。

国产化自主可控
昇腾NPU 和鲲鹏 CPU 均为华为自研,避免供应链风险。通过 CANN 框架支持 70% CUDA 代码迁移,训练成本下降 75%。而 H100 依赖台积电 CoWoS 封装和三星 HBM3,供应链受地缘政治影响较大。

MoE 模型亲和性
支持“一卡一专家” 并行推理,384 卡可同时运行 384 个专家模型,吞吐量较传统方案提升 3 倍。H100 虽支持 NVLink 互联,但 MoE 通信效率较低,需依赖 DGX 系统级解决方案。

劣势:

单卡性能差距
昇腾910 单卡 FP16 算力 256 TFLOPS,仅为 H100(900 TFLOPS)的 28%。在单卡训练场景下,H100 仍具优势,尤其在 FP32 科学计算领域。

软件生态成熟度
H100 拥有 CUDA 生态 20 年积累,支持 TensorRT、PyTorch 原生优化,开发者工具链完善。昇腾 CANN 虽已适配 PyTorch 2.1 和 TensorFlow,但算子覆盖度和第三方库支持仍有差距。

大模型终端应用表现惊艳

自然语言处理(NLP)

大模型推理:在DeepSeek-R1 模型部署中,CloudMatrix384 单卡吞吐量 2300 token/s,较非超节点方案提升 4 倍,推理时延降低 50%。新浪 “智慧小浪” 平台通过软硬协同调优,NPU 利用率提升 40%,模型上线速度翻倍。

MoE 模型训练:盘古 Ultra MoE 718B 模型在昇腾万卡集群上训练,算力利用率从 30% 提升至 41%,训练时间缩短至 2 个月。

智能运维与工业

轨道交通:佳都科技通过“运维智能体” 对车站设备进行预测性维护,故障处理效率提升 30%,区域信号失衡率下降 16.22%。

智能制造:某汽车厂商基于CloudMatrix384 优化生产线质检模型,推理吞吐量提升 200%,误检率降低至 0.03%。

黑猫白猫抓到老鼠就是好猫与数学补物理的差距的智慧

任正非任总曾接受人民日报采访的时候,说了这么一句话,让我印象深刻:

“我们单芯片还是落后美国一代,我们用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。”

当时还不觉明晓,现在看,这不正是指的CloudMatrix384超节点吗?现在才恍然大悟!

任老爷子还是很诚恳实在的,承认了华为昇腾芯片的单芯片算力确实不如英伟达的最新竞品,而且,这个差距也不是短时间内能够弥补的。

但是,“单打独斗”不行,可以“抱团”啊。正所谓“团结就是力量”,通过对等互联池化,在底层架构上进行创新,也可以实现计算效率的提升,获得竞争优势。

欢迎加入半导体产业交流群xinkejiquan001(与行业大咖交流、互换名片)请备注名字+公司+岗位。

华为

华为

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。目前华为约有19.7万员工,业务遍及170多个国家和地区,服务全球30多亿人口。华为致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界:让无处不在的联接,成为人人平等的权利,成为智能世界的前提和基础;为世界提供最强算力,让云无处不在,让智能无所不及;所有的行业和组织,因强大的数字平台而变得敏捷、高效、生机勃勃;通过AI重新定义体验,让消费者在家居、出行、办公、影音娱乐、运动健康等全场景获得极致的个性化智慧体验。

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。目前华为约有19.7万员工,业务遍及170多个国家和地区,服务全球30多亿人口。华为致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界:让无处不在的联接,成为人人平等的权利,成为智能世界的前提和基础;为世界提供最强算力,让云无处不在,让智能无所不及;所有的行业和组织,因强大的数字平台而变得敏捷、高效、生机勃勃;通过AI重新定义体验,让消费者在家居、出行、办公、影音娱乐、运动健康等全场景获得极致的个性化智慧体验。收起

查看更多

相关推荐