日前,NVIDIA宣布Meta和Oracle将升级为基于NVIDIA Spectrum-X以太网交换机的 AI数据中心网络,Spectrum-X以太网交换机将会以标准化、开放性的加速网络架构,加快大规模部署,显著提升AI训练效率,并缩短获取洞察的时间。
由于传统以太网在AI训练中面临严峻挑战,特别是大规模数据传输时,网络拥塞会导致吞吐量骤降,成为算力释放的瓶颈。而NVIDIA Spectrum-X通过软硬件协同设计实现了突破性创新,例如在动态路由与拥塞控制方面,通过细颗粒度负载均衡和动态重新路由技术,避免网络拥塞。此外它集成了BlueField-3 SuperNIC,为多租户环境提供安全的工作负载隔离,确保AI训练的确定性性能。
这意味着,Spectrum-X将网络从“被动传输管道”升级为“主动调度系统”。通过大幅提升GPU通信效率,显著降低了AI集群的通信开销。
据了解,Oracle 将构建由 NVIDIA Vera Rubin 架构提供加速并通过 Spectrum-X 以太网进行互连的十亿瓦级(Giga-Scale)AI 工厂。
Meta将Spectrum 以太网交换机集成到 Facebook 开放交换系统(Facebook Open Switching System “FBOSS”)的网络基础设施中,这是一款专为管理和控制大规模网络交换机而开发的软件平台。二者的集成将加快大规模部署,提升 AI 训练效率,并缩短获取洞察的时间。
NVIDIA创始人兼首席执行官黄仁勋表示:“万亿参数模型正在将数据中心转变为十亿瓦级(Giga-Scale)AI 工厂,Meta 和 Oracle 等行业领导者正在将 Spectrum-X 以太网定义为推动这场产业变革的标准。Spectrum-X 不仅是更快的以太网,更是 AI 工厂的神经系统,帮助超大规模企业将数百万个 GPU 连接到一起构建成一台巨型计算机,从而训练有史以来规模最大的模型。”

NVIDIA Spectrum-X如何攻克AI算力瓶颈?
NVIDIA Spectrum-X以太网网络平台专为万亿参数模型时代打造,由Spectrum-X以太网交换机和Spectrum-X以太网 SuperNIC 组成业界首个专为 AI 打造的以太网网络平台,帮助超大规模企业以前所未有的效率和规模互连数百万个GPU。
万亿参数模型和生成式 AI 正在重新定义数据中心的规模。Spectrum-X 以太网网络持续拓展 AI 部署规模,保障了构建全球先进的 AI 基础设施所需的性能与可扩展性。
目前,Spectrum-X 以太网网络已经展现出创纪录的效率,以其先进的拥塞控制技术,助力全球最大的 AI 超级计算机实现了 95% 的数据吞吐量。相比之下,通用以太网在规模部署中,会发生不计其数的流量冲突,导致吞吐量降低至大约 60% 的水平。
这一效率的飞跃标志着面向 AI 的大规模网络在经济效益和性能方面实现了突破性进展。NVIDIA Spectrum-XGS 以太网技术是 Spectrum-X 以太网网络平台的一部分,可实现跨区域扩展,可将跨城市、国家乃至跨大陆的数据中心连接成超大规模的十亿瓦级(Giga-Scale)AI 超级工厂。
Spectrum-X 为 NVIDIA 的全栈平台(包括 GPU、CPU、NVIDIA NVLink及软件)而构建,可提供从计算到网络的无缝性能衔接。其先进的拥塞控制、动态路由以及 AI 驱动的遥测功能,可确保大规模 AI 训练和推理集群的效率和可预测性。
NVIDIA全栈生态,持续推动AI基础设施标准化
NVIDIA的这种全栈布局,助推其进一步成为AI基础设施的定义者。相较于其他竞争对手而言,NVIDIA这种跨越计算、网络、软件的协同优化能力,将会越来越凸显出独到的价值。
Oracle 云基础设施执行副总裁 Mahesh Thiagarajan 指出:“Oracle 云基础设施专为 AI 工作负载而设计,我们与 NVIDIA 的合作进一步巩固了我们在 AI 领域的领先地位。通过采用 Spectrum-X 以太网网络,我们能够以突破性的效率实现数百万个 GPU 的互连,帮助客户更快速地训练和部署新一代生成式和推理 AI,并从中受益。”
Meta 网络工程副总裁 Gaya Nagarajan 表示:“Meta 的新一代 AI 基础设施需要业界前所未有的大规模、开放且高效的网络,通过将 NVIDIA Spectrum 以太网集成到 Minipack3N 交换机和 FBOSS 中,我们既可以扩展我们的开放网络平台,又可以提升训练更大规模的模型的效率和可预测性,为数十亿用户提供生成式 AI 服务。”
Meta与Oracle作为两大技术巨头,对Spectrum-X的选择可能会引发一定的示范效应,有望引领更多企业跟随这一趋势,推动Spectrum-X成为AI工厂的“神经中枢”标准。
来源: 与非网,作者: 张慧娟,原文链接: /article/1904864.html
1753
