2025年8月15日,第14届中国数据中心设计高峰论坛在北京成功举办。本届论坛以“创新设计 重构未来”为主题,聚焦技术创新,凭借权威视角、深度内容与专业阵容,探讨数据中心设计的新方向。康普大中华区技术总监吴健,以《大规模智算集群网络设计要素分析及案例分享》为题发表演讲,深入剖析了AIDC面临的关键挑战与解决方案。
吴健指出,大规模算力集群依然是AI发展的必由之路,智算中心网络面临高带宽、低延时、低能耗的挑战。吴健强调智算中心应确立“以网络为核心”的设计原则,实现算力集群的最优性能,吴健结合800G向1.6T的网络演进趋势,解析了架构从Scale-up向Scale-out的转变路径,还分享了康普在万卡到十万卡级集群建设中的实践案例。
现将演讲内容整理如下(有删减),供广大数据中心从业者参考。
首先,我们看看网络发展趋势。
智算网络需要具备高带宽、低延时的特性,这是行业共识,也是现实需求。但在实际落地过程中,我们会面临很多挑战。网络技术也越来越关注能耗问题,很多人认为能耗是服务器需要重点关注的问题,而网络设备不会面临高耗能的挑战。事实上,网络设备在能耗方面同样面临越来越大的挑战,这要从高速光模块(收发器)说起。
Epoch AI 研究机构在AIDC大规模集群训练方面做了大量的参数分析,其中一个与网络密切相关的报告是:当训练规模逼近 2e28FLOPs,数据搬运耗时开始压过算力本身,利用率急剧下滑,被业界称作“延时和通讯墙”。随着集群规模的不断增加,网络的挑战主要体现在:搬运数据所消耗的能耗和时间,甚至超过了计算数据本身的开销。
那么如何解决通讯墙问题?主要还是通过提高带宽、降低延时来缓解;当然,算法也可以帮助我们进行优化。该报告给我们传递了一个非常重要的思想:延时和带宽对于大规模集群至关重要;否则堆砌再多的服务器,不能有效提高算力。
网络如此重要,那么网络的核心要素是什么?
在计算过程中,芯片本身的资源消耗是最高的,紧随其后的就是网络资源。网络资源中,最关键的要素是光模块。光模块是网络效能中最核心、成本占比最大的部分。未来的技术发展速度非常快,光模块的演进甚至快到可能“消灭掉自己”。就是随着网络设备能耗的提升,最终可能不再需要传统的可插拔光模块,而是采用CPO(Co-Packaged Optics,光电共封装)这样的新方案。目前我们仍然在使用可插拔光模块,从 800G、1.6T再到3.2T,光模块是否还能继续存在是一个问题。
从预测来看,红色中间部分显示的是 800G光模块发货趋势,可以看到我们已经进入 800G大规模部署阶段,未来将进入 1.6T光模块的部署阶段。至于 3.2T 的技术线路图,现在还难以判断。但至少从上图可以看到,800G及以上接口比例会越来越高。
多家权威机构的报告中也能印证这一点:1.6T已经开始应用,光纤用量也会出现翻倍增长。目前,AI集群大多使用基于8芯光纤的MPO8连接器,未来接口提速会用到MPO16连接器,这会导致大规模算力集群的光纤数量进一步提升。
从1.6T的以太网标准演进看到,大多数技术都是MPO16方案。总体光纤体量会比过去增加一倍以上,而相对于传统通算中心来说,可能会增长十几倍光纤用量。
网速的发展会带来密度的提升
在算力提升的同时,高密度会反映在四个方面:电密度提升,制冷密度提升,空间密度提升,和光纤密度提升。我们前面已经分析过电力提升幅度,从 40千瓦到120千瓦,再到600千瓦,这是一个非常快速的发展趋势。
传统架构中,一个机架或机柜可能只需要几十芯光纤;但到了H系列时代,这个需求量已经达到几百芯,用来支持400G以上的网络连接;进一步到B系列,尤其是GB200,需求量可以达到一千芯以上。能耗提升的同时,网络速率也在大幅提升,光纤连接的需求量随之增加,空间密度也必须相应提升。通过上图,大家可以感受到这种变化的幅度。
从英伟达的设备演进趋势看,设备功耗在提升的同时,GPU互联内部连接需求从900GB到1800GB,再到3600GB。这带来一个新的思考:GPU 内部连接速率要求如此之高,外部连接如何追赶才能与之匹配? ?这将触及一个核心问题:SCALE UP和SCALE OUT之间,如何找到平衡?
SCALE OUT 通过网卡及可插拔光模块很容易实现多卡集群,但会遇到“延时墙”和“通信墙”。越来越多的技术专家认为SCALE UP非常重要,实现高带宽、低延时,也可以带来低能耗(提高能效)。
当SCALE UP形成产品化形态时,我们称之为超节点。超节点将越来越受到用户关注,因为它能解决高算力需求。但在构建超节点时,又出现新的挑战:过去我们更多采用铜介质来实现内部互联,而未来SCALE UP是否也会被光纤取代?
答案是:会的,而且用量可能非常大。过去那些几百芯、上千芯的情况主要出现在 SCALE OUT 中,将来可能会出现在 SCALE UP中。
总体来看,从H系列到B系列,我们的空间利用密度提升了大约2.5倍。这种提升来自于高带宽的高密度连接需求。从B平台向R平台过渡,提升幅度更大,连接密度提升达到4.5倍。与此同时,SCALE UP的规模也在增加:一台设备从最初的8张卡,到B200的72张卡,再到R平台的144张卡,SCALE UP基本实现了翻倍增长。
未来是否还能继续翻倍?这取决于技术突破。英伟达72张卡的内部连接仍采用铜缆,但铜缆的速率和距离受限,可能成为瓶颈。如果我们用 144张GPU 形成一个SCALE UP平台,再继续扩展就需要借助 SCALE ?OUT的方式,例如把 576张GPU连接在一起。这时,我们就被迫推动网络架构发生革命性变化,抛弃传统光模块,采用CPO交换机。CPO交换机非常强大,机壳出来就是高密度光纤连接,通过光纤系统连接GPU,形成高速交换网络。
这大致勾勒了未来的方向,同时也让大家理解SCALE UP与SCALE OUT的关系。目前,SCALE OUT受制于网卡和可插拔光模块的性能,而SCALE UP也面临能耗和连接方式的挑战。
那么,能否在SCALE UP和SCALE OUT之间找到统一的平台? 答案是:可以。现在,部分厂商正在探索一种方式:通过传统的SCALE OUT光纤网络交换方案,进入到SCALE UP的内部连接市场,形成一个规模相当于512台设备看起来就像一台设备的架构。这其中,设备之间的内部组网需要通过几千芯甚至上万芯的物理光纤连接实现。这一点铜缆做不到,必须依赖高性能光纤。
图8:基于光纤介质的Scale Up方案实现512 GPU互联示意图
抛开上层协议的区别,回归物理层介质。未来的网络中,SCALE UP和SCALE OUT在物理连接器件和连接方式上将趋于统一和融合-既高速光纤高密度连接。要实现这种融合,必须依赖无损网络、高性能光纤以及高性能连接器件,否则无法满足SCALE UP与SCALE OUT对高可靠性的要求。
总体来看,光纤连接在未来的AIDC发展中扮演者越来越重要的角色。过去,光纤连接主要应用于广域网,但随着网络架构的演进,光纤逐步进入局域网,进入数据中心,甚至深入到机器内部。越往内部延申,对光纤的需求量越高,这对光纤产业来说无疑是巨大利好。
在这个过程中,我们必然面临高密度连接需求。这也是为什么我们看到连接器从LC双工方式过渡到MPO的并行方式,再从 MPO-8到 MPO-16,未来肯定还会有更高密度和芯数的连接器件。
总结一下第一时段的内容:
? 大集群需要高带宽和低延时,打破“通讯墙”; 大规模集群对高带宽的需求,直接推动了高密度连接的发展。
? Scale up与Scale out在物理层上,会更进一步推向全光纤连接。
接下来,我来谈谈落地实践中产生的思考。
大规模集群在实际建设中不可避免地面临系统维护性与性能之间的平衡。所谓系统维护性,是指布线设计、安装、管理和运维的效率;性能则是指在复杂链路和各种连接器支持下的实际性能。在设计中,我们不能只追求初期成本而忽视后期维护和性能余量,用于未来扩展。
图10: AIDC的常见网络架构
从数据中心角度来看,网络设计通常是Scale out范畴。智算中心通常包含多种网络,例如计算网络(也被称之为参数面网络或后端网络),前端网络,存储网络,带外网络和带内网络等;从实践经验来看,以万卡集群为例,成本投入大致比例如下:机架间互联约 30%、GPU互联约 35%、前端互联约 15%、外部DCI互联约 15%、管理网络约 5%,不同网络所采用的布线技术不同。
鉴于组网的复杂性,总体来看,网络设计需遵循两个核心原则:以网络区域为物理核心区,以结构化设计提高运维便利性。
第一,以网络为核心。
网络对于智算中心至关重要。大规模集群中,网络直接决定了延时和“通信墙”的问题。如果网络设计不当,将无法支撑更大规模的集群。譬如以千亿级参数的集群可能尚可,但当扩展到万亿级参数时,网络瓶颈会迅速显现。
图11: 机房布局示意
在物理布局上,田字结构相对容易实现,尽可能将交换机和网络置于空间核心位置,这有助于解决高带宽、低延时,甚至降低能耗。越来越多的客户认同:网络应作为物理空间的核心。
第二,实现结构化设计。
随着连接规模达到几千开甚至几万卡,点对点设备直连已不可行,必须采用结构化设计,以保证大集群的安装效率和运维可操作性。
然而,结构化也带来了新的挑战:连接器件的性能是否足够好?原来点对点连接只涉及一根线,而结构化设计引入了多级连接和大量中间节点。中间节点会带来损耗和性能变化,这就要求我们选择高性能连接器件来保证网络整体性能。
英伟达技术手册对大规模集群网络组网的指导有限,仅靠翻阅手册并不能获得完整可用的布线方案。为此,我们与英伟达联合推出了数据中心AI集群指导手册,可在康普官网下载。该手册涵盖了大规模集群的网络架构设计和布线连接。此外,去年CDCC还发布了《智算中心800G/1.6T网络布线技术白皮书》,分析智算业务对网络的关键需求,介绍智算网络的架构设计以及智算中心网络特征,为读者提供建设面向大模型的智算中心网络设计和运维参考。
在大规模集群实践中,常见思路是从千卡规模入手,然后通过4倍规模进行扩展,逐步形成更大规模集群。
图12:大规模集群的集群间互联方式
当多个集群形成整体算力网络时,中间必然需要高密度光纤配线方案,多于几千根光纤光缆集中管理和维护。对于万卡及以上集群,这意味着几万芯光纤的管理,需要多个机柜和空间来支撑高密度连接。
高带宽带来的高密度挑战不仅体现在设备需求上,也涉及到运维复杂性。标签管理、色区域划分以及其他标准化产品的使用,都是确保高效运维不可或缺的手段。
图13:大规模集群中ODF的位置示意
另外,在性能方面,随着800G链路的出现,我们对链路性能的控制目标不仅仅是插入损耗(IL), 回波损耗(RL)也越来越重要。AIDC需要选择更优异的连接器件,以便实现更加自由和高效的连接。
图14:400G/800G 多模MPO连接器普遍采用APC端面改善RL参数
这些连接器件面临的挑战主要是:随着 NRG编码方式向PAM4转化,回波损耗也会严重影响信噪比。在优化插入损耗的同时,也需要优化回波损耗。
以GB200组网为例,不论SCALE OUT和SCALE UP所消耗的连接器件数量惊人。基于十万卡集群的GB200连接示例:约 60万个连接器件,20万公里光纤,30万个铜缆条线。这需要专业的结构化布线设计和高品质的连接器性能。
图15: 整机柜安装的布线方式
GB200连接还面临意想不到的挑战:一个整机柜意味着没有足够空间安装或管理线缆,因此光纤线槽和机架顶部的设计变得至关重要,以保证连接灵活性。随着密度提升,出现了新的连接器件 MMC,将 6个MMC连接器组合,形成48芯或96芯连接。在GB200机柜模型中,英伟达72张卡分布在 18个托盘,每托盘4个口,通过一个连接单元完成高密度连接。
总结一下第二时段的内容:
? 大规模集群建设需要高性能组件和结构化设计思想。
? 网络必须被置于AIDC的核心位置,这里的核心指的是物理空间核心。网络作为数据搬运的枢纽,只有服务好所有服务器的连接,才能实现大规模集群的高效运行。
最后分享一些新技术:
1)光模块可能成为未来AIDC发展的瓶颈。光模块是光电转换设备,所有计算设备处理的是电信号而非光信号。在传输过程中,不断处理光电转换问题,这会带来大量能耗和延时。为了解决这一瓶颈,行业提出共封装技术(CPO),让光电转换尽可能靠近计算芯片,不再有可插拔光模块形态,光纤直接连接设备。CPO交换机的出现,使得网络设备的耗能大幅度下降。
这就是我会议开始所提到的核心观点:
高速低延时网络趋势最终把网络的最核心部件-光模块消灭掉,并使得网络设备大幅度节能。
2)空心光纤。该技术主要解决长距离链路延时问题,光信号从石英介质中的2/3光速,提升至全光速,理论上提升了30%,传播延时改善明显。
3)抗污染光纤连接器。在高密度光纤连接器中,尘埃浸入会严重影响通信,通过扩束/扩斑技术,将光束扩大再回收,使微小灰尘对光信号的影响大幅降低,提高尘埃容忍度。
4)浸没式液冷适配。随着冷却方式的改变,越来越多系统采用浸没式液冷,铜缆和光连接器件需适应浸没式环境,面临新的设计挑战。
总结:
? AI发展的所有技术都会导致光纤及高品质连接器使用量剧增!
? 可插拔光模块面临严峻生态挑战! 在高带宽,低延时,低能耗的驱动下,CPO的时代可能会加速到来。
3744