WAIC火出圈的神器-华为CloudMatrix384?到底隐藏了什么逆天的底层创新？能超英伟达

在持续升级的芯片封锁打压环境下，华为于2025年7月27日在世界人工智能大会(WAIC)逆境推出CLoudMatrix 384超节点系统（Atlas 900 A3 SuperPoD），标志着中国在高端AI算力领域取得重大突破。

作为全栈国产化的超级AI服务器，该系统通过架构创新将384颗昇腾910C NPU与192颗鲲鹏CPU整合为统一计算单元，单卡推理吞吐高达惊人的2300 tokens/秒，为受限环境中的大模型训练提供新的算力选择。

任总的智慧-逆天的底层创新：全对等互联架构与软硬协同杀手锏

1. 任总的智慧-用数学补物理的方式设计系统架构

CloudMatrix 384的本质是“超节点”(Super Node)——它突破传统服务器集群概念，通过全栈技术创新将整个系统构建为单一致性计算实体。其设计哲学源于华为创始人任正非的战略判断：当单芯片性能受限时，可通过数学优化和集群协同弥补个体差距。

有三大创新关键点：

拓扑重构：采用自主MatrixLink网络技术取代传统以太网，实现跨机柜全对等互联，使384颗NPU如同单芯片般协同。

资源虚拟化：将分散的硬件资源（内存/存储/加速器）抽象为统一服务池，消除数据孤岛。

软硬协同：针对MoE（专家混合）等新兴模型优化通信协议，提升有效算力占比。

从物理部署看，单套系统需配置559kW高功率机柜并采用浸没式液冷散热。其核心硬件包含6912个400G LPO光模块构建光互联网络，磷化铟衬底等材料用量显著增加。这种设计虽推高功耗，但规避了芯片制程限制，体现了“以空间换性能”的工程智慧。

2. 硬件架构设计

CloudMatrix384 采用全对等互联总线（UB 网络）技术，基于 Clos 架构实现 384 颗昇腾 NPU 和 192 颗鲲鹏 CPU 的无阻塞高速互联。通过定制化光通信模块，单卡间单向带宽达 392GB/s（约为传统 RoCE 网络的 15 倍），传输延迟从 10 微秒降至 1 微秒以内。这种架构突破了传统集群的 “南北向带宽瓶颈”，实现数据在芯片间的直接传输，尤其适合 MoE 模型中高频 token 分发场景，通信效率提升 70% 以上。

昇腾NPU 与鲲鹏 CPU 协同

昇腾910 基于达芬奇架构，集成 32 个 3D Cube 计算引擎，单芯片 FP16 算力达 256 TFLOPS，支持动态流水并行和分布式训练。鲲鹏 920 采用 ARM v8.2 架构，64 核设计，内存带宽达 640Gbps，通过 HCCS 互联协议实现 CPU 间 480Gbps 高速通信。

两者通过统一内存视图技术，使 NPU 可直接访问 CPU 内存，KV 缓存命中率提升至 56%，数据访问延迟从毫秒级降至微秒级。

3. 软件栈深度优化

MatrixResource：基于拓扑感知动态分配资源，避免跨节点通信瓶颈。

MatrixCompute：支持超节点实例的自动扩缩容，在 15ms 严苛延迟约束下仍维持 538 token/s 解码吞吐量。

昇腾CANN 框架：通过算子融合（如 MLAPO 超级算子）和编译优化，使 DeepSeek-R1 模型推理效率达 4.45 token / 秒 / TFLOPS，超越 H100 的 3.75 token / 秒 / TFLOPS。

昇腾云脑运维：实现万卡集群故障10 分钟内恢复，光模块故障影响降低 96%，保障任务连续性。

CloudMatrix384是一个超节点，也是一个AI智算集群。

AI智算集群分为两种模式，一种是Scale Up，另一种是Scale Out。

Scale Up是纵向扩展，增加单节点内的GPU/NPU算卡数量。Scale Out是横向扩展，增加节点的数量。

规定超过16卡以上的Scale Up系统，就是超节点。CloudMatrix384是超节点中规模最大的。

如果把384个卡“绑定”在一起，算力就会进行相应的叠加呢？

答案当然是否定的。

CloudMatrix384发布之后，很多人都只关心算力的大小，但实际上，这款产品最大的亮点，在于它的设计理念。

华为在发布会上反复强调了三句话，即：“一切可池化”“一切皆对等”“一切可组合”。

看懂了这三句话，才能真正看懂这款产品，这才是这款产品的核心之处。

通俗理解一下这三句话的意思：

一切可池化，指的是在CloudMatrix384中，所有的资源都在资源池里。包括NPU，也包括CPU、内存、网络。（英伟达仅实现了GPU池化。）

一切皆对等，指的是资源池里的资源不再是主从式关系，而是对等关系。传统的以CPU为中心的计算方式，已经转变为更高效、更灵活的CPU与NPU等对等架构。

一切可组合，指CloudMatrix384中池化的资源，可以根据不同的任务需求，像搭积木一样，进行灵活调配组合。

CloudMatrix?386架构将NPU、CPU、内存、网卡等所有资源完全融合变成可拓展的资源池，转化成了“由单算力转向混合算力，由单机转向集群，由传统应用松散分布转向多样应用紧密融合”，是一个真正对等互联的超节点架构。

与英伟达H100/GB200的巅峰对决在不久的将来

选取英伟达代表方案作为参照：

指标	CloudMatrix 384	GB200 NVL72	H100单卡
芯片数量	384×Ascend 910C	72×B200	1×H100
峰值算力(BF16)	300 PFLOPs	180 PFLOPs	0.67 PFLOPs
内存带宽	1229 TB/s	582 TB/s	3.35 TB/s
内存容量	3.6×NVL72	(基准)	80 GB
单卡推理吞吐	2300 tokens/s	980 tokens/s	1050 tokens/s
互连时延	200 ns	500 ns	900 ns
系统功耗	559 kW	136 kW	0.7 kW
光模块数量	6912个400G	未公开	N/A

优势：

系统级算力密度与能效
CloudMatrix384 单集群算力达 300 PFlops，是 H100 NVL72 集群的 1.67 倍。通过液冷技术，PUE 低至 1.1，功耗 172.8kW，较 H100 方案降低 40%。在 DeepSeek-R1 推理中，单卡解码吞吐量 1943 token/s，与 H100 持平，但计算效率（token/TFLOPS）高出 18.7%。

国产化自主可控
昇腾NPU 和鲲鹏 CPU 均为华为自研，避免供应链风险。通过 CANN 框架支持 70% CUDA 代码迁移，训练成本下降 75%。而 H100 依赖台积电 CoWoS 封装和三星 HBM3，供应链受地缘政治影响较大。

MoE 模型亲和性
支持“一卡一专家” 并行推理，384 卡可同时运行 384 个专家模型，吞吐量较传统方案提升 3 倍。H100 虽支持 NVLink 互联，但 MoE 通信效率较低，需依赖 DGX 系统级解决方案。

劣势：

单卡性能差距
昇腾910 单卡 FP16 算力 256 TFLOPS，仅为 H100（900 TFLOPS）的 28%。在单卡训练场景下，H100 仍具优势，尤其在 FP32 科学计算领域。

软件生态成熟度
H100 拥有 CUDA 生态 20 年积累，支持 TensorRT、PyTorch 原生优化，开发者工具链完善。昇腾 CANN 虽已适配 PyTorch 2.1 和 TensorFlow，但算子覆盖度和第三方库支持仍有差距。

大模型终端应用表现惊艳

自然语言处理（NLP）

大模型推理：在DeepSeek-R1 模型部署中，CloudMatrix384 单卡吞吐量 2300 token/s，较非超节点方案提升 4 倍，推理时延降低 50%。新浪 “智慧小浪” 平台通过软硬协同调优，NPU 利用率提升 40%，模型上线速度翻倍。

MoE 模型训练：盘古 Ultra MoE 718B 模型在昇腾万卡集群上训练，算力利用率从 30% 提升至 41%，训练时间缩短至 2 个月。

智能运维与工业

轨道交通：佳都科技通过“运维智能体” 对车站设备进行预测性维护，故障处理效率提升 30%，区域信号失衡率下降 16.22%。

智能制造：某汽车厂商基于CloudMatrix384 优化生产线质检模型，推理吞吐量提升 200%，误检率降低至 0.03%。

黑猫白猫抓到老鼠就是好猫与数学补物理的差距的智慧

任正非任总曾接受人民日报采访的时候，说了这么一句话，让我印象深刻：

“我们单芯片还是落后美国一代，我们用数学补物理、非摩尔补摩尔，用群计算补单芯片，在结果上也能达到实用状况。”

当时还不觉明晓，现在看，这不正是指的CloudMatrix384超节点吗？现在才恍然大悟！

任老爷子还是很诚恳实在的，承认了华为昇腾芯片的单芯片算力确实不如英伟达的最新竞品，而且，这个差距也不是短时间内能够弥补的。

但是，“单打独斗”不行，可以“抱团”啊。正所谓“团结就是力量”，通过对等互联池化，在底层架构上进行创新，也可以实现计算效率的提升，获得竞争优势。

WAIC火出圈的神器-华为CloudMatrix384?到底隐藏了什么逆天的底层创新？能超英伟达

相关推荐