• 正文
  • 相关推荐
申请入驻 产业图谱

告别英伟达路径!光互连,中国 AI 算力突围的 “第二曲线”

原创
08/05 12:02
5089
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

随着生成式AI与大语言模型的快速发展,训练AI大模型所需的数据量正呈指数级增长。从文本、图像到多模态数据,模型的参数量已突破万亿级别,对算力、存力、运力、电力的需求也随之激增。于是,近年来“超节点”算力集群成为行业关注的焦点。

跟随英伟达超节点路径或行不通

英伟达作为行业龙头,早在去年的GTC大会上就发布了NVL72机柜级超节点。英伟达通过 NVLink 互连技术,将 2颗Blackwell GPU 和1颗 Grace CPU 整合为 GB200 超级芯片,再通过NVLink Switch将2颗GB200超级芯片和Bluefield NPU打通,形成板卡级的“超异构”加速计算平台;18个“超异构”加速计算平台又可以形成一个GB200 NVL72服务器机柜级超节点,总算力规模达到 180 PFLOPS。

事实上,相比于NVL72超节点,传统算力集群从算力层面是可以实现相同配置的,但是在GPU内存池化、GPU间带宽、能效比和空间效率等方面存在差距。比如,在用户请求量超过200 TPS时,相同算力配置下NVL72超节点可实现3倍以上的吞吐量提升。

因此,我们看到几乎国内所有的AI芯片、服务器厂商都开始拥抱超节点的概念。就在近日举办的2025世界人工智能大会(WAIC)上,华为作为国内行业龙头,展示了昇腾 384 超节点 Atlas 900 A3 SuperPoD。该超级节点由 384 颗昇腾 NPU 和 192 颗鲲鹏 CPU 通过新型高速总线互联,总算力规模达到 300 PFLOPS,单跳通信时延 <200 ns,带宽 392 GB/s,比传统 RoCE 提升 了15 倍。

然而,典型的7nm制程下的国产GPU算力与英伟达A100相近,NVL72超节点中采用的B200的纯算力能力是典型国产GPU的5-10倍。以此类推,单个NVL72超节点中72张Blackwell GPU的算力就相当于约500张国产GPU的算力

国内绝大部分数据中心采用的还是传统的单机8卡+RoCE网络的方案,如果我们选择跟随英伟达的道路,继续把更多的GPU塞到机柜里,GPU间通过短距离铜导线连接起来去做超节点,那一定是一条困难重重的道路。当我们尝试把500张GPU塞到一个机柜里时,同步带来的功耗、散热、体积,以及无法放下那么多铜导线等问题,都会成为巨大的挑战。更何况英伟达下一代的Rubin采用的是3nm制程,接下来还会进入2nm制程阶段,差距只会越来越大。所以,国内必须开拓第二路径——具备跨机柜的带宽互连能力,才有可能追赶上,甚至超越英伟达GPU密度。而跨机柜往往超过1m的距离,所以只有一种方案——光互连。

光互连,实现从“绿皮车”到“高铁”的跨越

曦智科技创始人兼首席执行官沈亦晨博士在2025 WAIC期间的媒体会上表示:“做跨机柜的长距离互连,GPU直接出光是一条必经路径。

事实上,光互连技术并非新鲜事物,其历史可追溯至光纤发明后的广泛应用。然而,传统的光模块互连方式(可类比为“绿皮车”)存在诸多局限性。光电转换芯片与GPU距离较远,中间的铜导线传输延迟较大,如同人们需要长途跋涉到交通枢纽才能乘坐轨道交通,极大地限制了数据传输效率。

为了突破这一瓶颈,国内行业生态积极探索新的光电融合技术。于是,封装光学技术应运而生,它将光电转换芯片从交换机直接移到GPU板卡上,使传输距离从1m缩短至10cm,互连密度提高2-3倍,同时去掉DSP芯片,显著减少GPU间通讯延迟。目前,近封装光学已实现批量落地,成为GPU超节点互连的重要方案。

共封装光学是光互连技术的进一步发展,它将光电芯片与GPU的距离缩短至1mm,进一步提升互连带宽约3倍,减少传输延迟。

在2025 WAIC期间,曦智科技联合燧原科技推出了国内首款xPU-CPO光电共封装原型系统,通过将光学引擎与计算芯片(xPU)在基板上实现光电共封装,将电芯片与光芯片的传输距离缩短,与传统可插拔光学相比,可大幅提升信号完整性并降低损耗和延迟,同时显著降低系统功耗,有效提高光电转换的稳定性。

值得一提的是,沈亦晨博士透露:“光互连的下一步是3D共封装方案,预计未来五年内会出现,原理是将光芯片与电芯片在同一颗芯片上堆叠,电芯片信号直接垂直传导至硅光芯片,通过硅光芯片上的Routing连接外部接口,最大化提升互连带宽。”

光互连方案,离不开光交换的支撑

随着光互连技术的发展,连接的GPU节点数量不断增加,如何高效调度这些节点成为关键问题。

传统的电交换技术存在诸多局限性,如同公路交通中的小汽车,每个信号(小汽车)在电交换机(红绿灯)上选择路径,交换容量和速率受限于电交换芯片运算能力,容易在大规模超节点网络上造成堵塞。

此外,不同厂商GPU采用不同互连协议,难以通过统一交换芯片实现互连,国产电交换芯片也受限于工艺节点。

为解决这些问题,在2025 WAIC期间,上海仪电联合曦智科技、壁仞科技、中兴通讯,发布了国内首个光互连光交换GPU超节点——光跃LightSphere X

该超节点基于曦智科技全球首创的分布式光交换技术,采用硅光技术的光互连光交换芯片和壁仞科技自主原创架构的大算力通用GPU液冷模组与全新载板互连,并搭载中兴通讯高性能AI国产服务器及仪电智算云平台软件,构建起了一种高带宽、低延迟、灵活可扩展的自主可控智算集群新范式,即将于上海仪电智算中心落地。

在2025 WAIC主论坛上,世界人工智能大会的最高奖项,2025 SAIL奖(卓越人工智能引领者奖)也颁给了这一创新项目,成为SAIL四大评价维度(Superior, Application, Innovation, Leading)中“Innovation”(创新)维度的标杆案例。相关论文也已获国际通信网络领域顶级会议SIGCOMM 2025接收。

沈亦晨博士表示:“与电交换相比,光交换如同轨道交通间的直接切换,不受协议限制,所有硅光芯片可在国内自主生产,不受先进制程限制。”

此外,他强调:“光交换技术还具备灵活组网和冗余的重要特点。在大规模超节点中,一旦某个GPU出现故障,传统电插拔方案需重新插光纤,而光交换技术可在毫秒级时间内将备用GPU切换至超节点,大大降低冗余成本,提高系统可靠性。”

当然,如果采用分布式光交换技术,在工程布线过程中一定会面临单通道交换芯片损坏或光纤损坏的问题,替换成本高会影响该技术在数据中心的批量落地。

对此,曦智科技光互连产品线副总裁朱剑告诉与非网:“在近封装光学技术中,光学可插拔技术至关重要。对于光模块,小通道光纤不可插拔时更换成本较低,但大规模应用(如博通交换机的512通道)中,光纤不可插拔会导致更换成本极高。CPO要实现大规模应用,必须解决光纤可插拔问题,即损坏一根光纤时只需更换32通道的部分,而非整个设备。目前,光学可插拔技术已相当成熟,但作为各公司的核心技术,尚未形成统一标准。”

据悉,曦智科技不仅在硅光芯片上,还在系统级光学方面攻克了相关技术,具备完整的技术储备,拥有自己的光通道技术。

写在最后

我国的光互连和光交换技术并非孤立发展,而是相互融合、协同创新。通过将“绿皮车”升级为“高铁”,从传统光模块到LPO、NPO、CPO,最终实现3D CPO,同时不断升级光交换能力,覆盖更大交换通道数、降低功耗、提高集成度,增强灵活调度能力。

这两种技术并不与现有的电互连交换技术冲突,而是通过兼容方式,短距离机柜内采用低成本电互连,跨机柜连接采用光互连,打造数据中心的“虹桥枢纽”技术。

 

来源: 与非网,作者: 夏珍,原文链接: /article/1872443.html

相关推荐