在持续升级的芯片封锁打压环境下,华为于2025年7月27日在世界人工智能大会(WAIC)逆境推出CLoudMatrix 384超节点系统(Atlas 900 A3 SuperPoD),标志着中国在高端AI算力领域取得重大突破。
作为全栈国产化的超级AI服务器,该系统通过架构创新将384颗昇腾910C NPU与192颗鲲鹏CPU整合为统一计算单元,单卡推理吞吐高达惊人的2300 tokens/秒,为受限环境中的大模型训练提供新的算力选择。
任总的智慧-逆天的底层创新:全对等互联架构与软硬协同杀手锏
1. 任总的智慧-用数学补物理的方式设计系统架构
CloudMatrix 384的本质是“超节点”(Super Node)——它突破传统服务器集群概念,通过全栈技术创新将整个系统构建为单一致性计算实体。其设计哲学源于华为创始人任正非的战略判断:当单芯片性能受限时,可通过数学优化和集群协同弥补个体差距。
有三大创新关键点:
拓扑重构:采用自主MatrixLink网络技术取代传统以太网,实现跨机柜全对等互联,使384颗NPU如同单芯片般协同。
资源虚拟化:将分散的硬件资源(内存/存储/加速器)抽象为统一服务池,消除数据孤岛。
软硬协同:针对MoE(专家混合)等新兴模型优化通信协议,提升有效算力占比。
从物理部署看,单套系统需配置559kW高功率机柜并采用浸没式液冷散热。其核心硬件包含6912个400G LPO光模块构建光互联网络,磷化铟衬底等材料用量显著增加。这种设计虽推高功耗,但规避了芯片制程限制,体现了“以空间换性能”的工程智慧。
2. 硬件架构设计
CloudMatrix384 采用 全对等互联总线(UB 网络) 技术,基于 Clos 架构实现 384 颗昇腾 NPU 和 192 颗鲲鹏 CPU 的无阻塞高速互联。通过定制化光通信模块,单卡间单向带宽达 392GB/s(约为传统 RoCE 网络的 15 倍),传输延迟从 10 微秒降至 1 微秒以内。这种架构突破了传统集群的 “南北向带宽瓶颈”,实现数据在芯片间的直接传输,尤其适合 MoE 模型中高频 token 分发场景,通信效率提升 70% 以上。
昇腾NPU 与鲲鹏 CPU 协同
昇腾910 基于达芬奇架构,集成 32 个 3D Cube 计算引擎,单芯片 FP16 算力达 256 TFLOPS,支持动态流水并行和分布式训练。鲲鹏 920 采用 ARM v8.2 架构,64 核设计,内存带宽达 640Gbps,通过 HCCS 互联协议实现 CPU 间 480Gbps 高速通信。
两者通过统一内存视图技术,使 NPU 可直接访问 CPU 内存,KV 缓存命中率提升至 56%,数据访问延迟从毫秒级降至微秒级。
3. 软件栈深度优化
MatrixResource:基于拓扑感知动态分配资源,避免跨节点通信瓶颈。
MatrixCompute:支持超节点实例的自动扩缩容,在 15ms 严苛延迟约束下仍维持 538 token/s 解码吞吐量。
昇腾CANN 框架:通过算子融合(如 MLAPO 超级算子)和编译优化,使 DeepSeek-R1 模型推理效率达 4.45 token / 秒 / TFLOPS,超越 H100 的 3.75 token / 秒 / TFLOPS。
昇腾云脑运维:实现万卡集群故障10 分钟内恢复,光模块故障影响降低 96%,保障任务连续性。
CloudMatrix384是一个超节点,也是一个AI智算集群。
AI智算集群分为两种模式,一种是Scale Up,另一种是Scale Out。
Scale Up是纵向扩展,增加单节点内的GPU/NPU算卡数量。Scale Out是横向扩展,增加节点的数量。
规定超过16卡以上的Scale Up系统,就是超节点。CloudMatrix384是超节点中规模最大的。
如果把384个卡“绑定”在一起,算力就会进行相应的叠加呢?
答案当然是否定的。
CloudMatrix384发布之后,很多人都只关心算力的大小,但实际上,这款产品最大的亮点,在于它的设计理念。
华为在发布会上反复强调了三句话,即:“一切可池化”“一切皆对等”“一切可组合”。
看懂了这三句话,才能真正看懂这款产品,这才是这款产品的核心之处。
通俗理解一下这三句话的意思:
一切可池化,指的是在CloudMatrix384中,所有的资源都在资源池里。包括NPU,也包括CPU、内存、网络。(英伟达仅实现了GPU池化。)
一切皆对等,指的是资源池里的资源不再是主从式关系,而是对等关系。传统的以CPU为中心的计算方式,已经转变为更高效、更灵活的CPU与NPU等对等架构。
一切可组合,指CloudMatrix384中池化的资源,可以根据不同的任务需求,像搭积木一样,进行灵活调配组合。
CloudMatrix?386架构将NPU、CPU、内存、网卡等所有资源完全融合变成可拓展的资源池,转化成了“由单算力转向混合算力,由单机转向集群,由传统应用松散分布转向多样应用紧密融合”,是一个真正对等互联的超节点架构。
与英伟达H100/GB200的巅峰对决在不久的将来
选取英伟达代表方案作为参照:
| 指标 | CloudMatrix 384 | GB200 NVL72 | H100单卡 |
| 芯片数量 | 384×Ascend 910C | 72×B200 | 1×H100 |
| 峰值算力(BF16) | 300 PFLOPs | 180 PFLOPs | 0.67 PFLOPs |
| 内存带宽 | 1229 TB/s | 582 TB/s | 3.35 TB/s |
| 内存容量 | 3.6×NVL72 | (基准) | 80 GB |
| 单卡推理吞吐 | 2300 tokens/s | 980 tokens/s | 1050 tokens/s |
| 互连时延 | 200 ns | 500 ns | 900 ns |
| 系统功耗 | 559 kW | 136 kW | 0.7 kW |
| 光模块数量 | 6912个400G | 未公开 | N/A |
优势:
系统级算力密度与能效
CloudMatrix384 单集群算力达 300 PFlops,是 H100 NVL72 集群的 1.67 倍。通过液冷技术,PUE 低至 1.1,功耗 172.8kW,较 H100 方案降低 40%。在 DeepSeek-R1 推理中,单卡解码吞吐量 1943 token/s,与 H100 持平,但计算效率(token/TFLOPS)高出 18.7%。
国产化自主可控
昇腾NPU 和鲲鹏 CPU 均为华为自研,避免供应链风险。通过 CANN 框架支持 70% CUDA 代码迁移,训练成本下降 75%。而 H100 依赖台积电 CoWoS 封装和三星 HBM3,供应链受地缘政治影响较大。
MoE 模型亲和性
支持“一卡一专家” 并行推理,384 卡可同时运行 384 个专家模型,吞吐量较传统方案提升 3 倍。H100 虽支持 NVLink 互联,但 MoE 通信效率较低,需依赖 DGX 系统级解决方案。
劣势:
单卡性能差距
昇腾910 单卡 FP16 算力 256 TFLOPS,仅为 H100(900 TFLOPS)的 28%。在单卡训练场景下,H100 仍具优势,尤其在 FP32 科学计算领域。
软件生态成熟度
H100 拥有 CUDA 生态 20 年积累,支持 TensorRT、PyTorch 原生优化,开发者工具链完善。昇腾 CANN 虽已适配 PyTorch 2.1 和 TensorFlow,但算子覆盖度和第三方库支持仍有差距。
大模型终端应用表现惊艳
自然语言处理(NLP)
大模型推理:在DeepSeek-R1 模型部署中,CloudMatrix384 单卡吞吐量 2300 token/s,较非超节点方案提升 4 倍,推理时延降低 50%。新浪 “智慧小浪” 平台通过软硬协同调优,NPU 利用率提升 40%,模型上线速度翻倍。
MoE 模型训练:盘古 Ultra MoE 718B 模型在昇腾万卡集群上训练,算力利用率从 30% 提升至 41%,训练时间缩短至 2 个月。
智能运维与工业
轨道交通:佳都科技通过“运维智能体” 对车站设备进行预测性维护,故障处理效率提升 30%,区域信号失衡率下降 16.22%。
智能制造:某汽车厂商基于CloudMatrix384 优化生产线质检模型,推理吞吐量提升 200%,误检率降低至 0.03%。
黑猫白猫抓到老鼠就是好猫与数学补物理的差距的智慧
任正非任总曾接受人民日报采访的时候,说了这么一句话,让我印象深刻:
“我们单芯片还是落后美国一代,我们用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。”
当时还不觉明晓,现在看,这不正是指的CloudMatrix384超节点吗?现在才恍然大悟!
任老爷子还是很诚恳实在的,承认了华为昇腾芯片的单芯片算力确实不如英伟达的最新竞品,而且,这个差距也不是短时间内能够弥补的。
但是,“单打独斗”不行,可以“抱团”啊。正所谓“团结就是力量”,通过对等互联池化,在底层架构上进行创新,也可以实现计算效率的提升,获得竞争优势。
欢迎加入半导体产业交流群xinkejiquan001(与行业大咖交流、互换名片)请备注名字+公司+岗位。
3007
