本文聚焦 AI 数据中心资源利用率低的痛点,提出基于 PCI Express(PCIe)网络的资源解耦方案,通过构建机架级全局地址空间实现硬件资源灵活池化。详细内容可参阅"2025 OCP (Future Technologies合集)"。
本文所有资料都已上传至“智能计算芯知识”星球AI峰会合集技术专栏。
一、背景:资源解耦的必要性与 PCIe 的技术适配性
1. 传统机架架构的局限性
资源绑定僵化:传统机架中,CPU、内存、SSD、GPU 等硬件资源与主机(Host)固定绑定,若某台主机承担内存密集型任务(如大模型推理)而另一台承担 CPU 密集型任务(如数据预处理),会导致 “内存过剩主机” 与 “CPU 过剩主机” 的资源浪费,整体利用率不足 50%;需求驱动变革:AI workload 多样性要求资源 “按需组合”—— 例如临时组建 “多 GPU + 大内存” 的训练集群,传统架构无法满足动态调整需求,需通过解耦技术打破硬件绑定。
2. PCIe 作为解耦网络的核心优势
PCIe 凭借 “低延迟、高带宽、可靠性强” 的特性,成为机架级资源解耦的理想技术选择:
性能参数领先:PCIe 5.0 单通道带宽达 32Gbps,每跳延迟(per-hop latency)<100 纳秒,支持 GPU 与远程内存的高速数据交互,性能接近本地硬件直连;原生硬件支持:几乎所有算力硬件(GPU、SSD、NIC)均原生支持 PCIe 接口,无需额外适配即可接入解耦网络,降低产业落地门槛;操作兼容性:PCIe 操作本质为内存读写(如 DMA 传输、中断交付),可直接复用现有硬件驱动与软件栈,避免重构复杂生态。
二、核心方案:PCIe 资源解耦的技术架构与关键组件
1. 资源解耦机架(Resource-Disaggregating Rack)目标
通过 PCIe 网络构建 “机架内任意主机访问任意资源” 的能力:
跨主机资源共享:Host 1 的 CPU 可直接访问 Host 2 的内存,无需经过 Host 2 的 CPU 转发,消除中间层延迟;硬件资源池化:将 SSD、NIC、GPU、AI 加速器、内存等拆分为独立资源池,主机可根据需求动态申请 —— 例如某训练任务需 8 块 GPU+2TB 内存,可从池化资源中临时分配,任务结束后释放回池;软件定义服务器(SDS):通过软件实时定义物理服务器的资源组成,实现 “CPU 密集型”“内存密集型”“算力密集型” 任务的灵活适配。
2. PCIe 架构与多根 I/O 虚拟化(MR-IOV)突破
(1)PCIe 基础架构特性
地址分配:每个 PCIe 设备(如 GPU、SSD)被分配唯一设备 ID 与地址范围(BAR,Base Address Register),设备按树形结构挂载于根复合体(Root Complex),仅接收目标地址在自身 BAR 范围内的 PCIe 数据包;核心操作:支持枚举 / 探测 / 配置、DMA 设置、DMA 负载传输、中断交付四类操作,所有操作均通过内存读写实现,确保与现有软件生态兼容。
(2)非透明桥(NTB):跨域访问的关键组件
传统 PCIe 设备仅能在单一 “域(Domain)” 内交互(如某主机的根复合体仅能管理自身域内设备),NTB 通过以下机制打破域隔离:
双向地址翻译:NTB 在两个 PCIe 域间建立地址映射表,例如将 Domain 1 的地址段 “10000-20000” 翻译为 Domain 2 的 “130000-140000”,实现跨域内存访问;设备 ID 隔离:通过请求者 ID(Requester ID) lookup 表区分不同域的设备,防止伪造响应攻击,确保数据安全;替代 MR-IOV 功能:当前商用 PCIe 交换机 / 端点设备不支持多根(MR)能力,NTB 通过单根(Single-Root)端点实现等效的多域虚拟化,降低硬件依赖。
3. 机架级全局地址空间(Rack-Wide Global Address Space)
(1)架构设计
通过 NTB 与 IOMMU(输入输出内存管理单元)协同,构建覆盖整个机架的全局地址空间:
地址划分:将地址空间按资源类型分配,例如为计算主机(CH)、管理主机(MH)、内存池分别划分独立区间(如 CH1 内存对应 “32GB-64GB”,CH2 内存对应 “64GB-96GB”);直接远程内存访问(Direct Remote DMA):主机可通过全局地址直接读写远程资源 —— 例如 MH 向 “32GB+10” 地址写入数据,会自动路由至 CH1 的本地地址 “10”;CH1 向 “96GB+30” 写入数据,会路由至 CH2 的本地地址 “30”,延迟与本地访问差异 < 20%。
(2)安全隔离机制
为避免恶意主机 / 虚拟机(VM)越权访问资源,通过多层防护确保安全性:
VF - 主机隔离:PCIe SR-IOV(单根 I/O 虚拟化)生成的虚拟功能(VF)仅能访问所属 CH 的资源,其他 CH 的地址转换表(LUT)与 IOMMU 会拦截越权请求;VM 间隔离:分配给某 VM 的 VF 仅能访问该 VM 的内存,由 CH 的 IOMMU 控制权限;跨主机防护:CH 无法访问其他 CH 或 MH 的内存,由目标设备的 IOMMU 阻断非法请求。
三、核心能力:动态资源池化与关键应用场景
1. 动态资源池化(Dynamic Resource Pooling)实现
实时资源调度:管理主机(MH)通过全局地址空间监控各资源池负载,当某训练任务提交 “4GPU+1TB 内存” 需求时,MH 自动从 GPU 池(如 CH2 的 GPU 1/2、CH3 的 GPU 3/4)与内存池(如 CH1 的 512GB、CH4 的 512GB)分配资源,并通过 PCIe 网络建立逻辑连接;任务结束释放:任务完成后,资源自动回池,可供下一个任务复用,整体硬件利用率提升至 80% 以上。
2. 关键应用场景
AI 训练集群:临时组建 “多 GPU + 分布式内存” 的训练环境,避免 GPU 与本地内存的绑定限制,支持超大规模模型(如 100B 参数)的内存扩展;混合 workload 适配:同一机架内,部分主机调用远程 GPU 处理视觉任务,部分主机调用远程内存处理数据库查询,资源按需流动;故障冗余:若某 CH 的 GPU 故障,可快速从 GPU 池调度备用设备,通过全局地址重映射恢复服务,RTO(恢复时间目标)<1 分钟。
四、技术对比与当前挑战
1. 与 CXL(Compute Express Link)的差异
CXL 是另一种资源解耦技术,PCIe 解耦方案的核心优势在于:
生态兼容性:PCIe 无需硬件厂商推出 CXL 专用设备,现有 PCIe GPU/SSD 可直接使用,而 CXL 需硬件原生支持,生态成熟度较低;功能覆盖:PCIe 解耦支持端到端中断交付(如远程 GPU 向本地 CPU 发送中断)、PCIe 承载以太网(Ethernet over PCIe)、多播带宽放大(Multicast),功能更全面;延迟控制:PCIe 每跳延迟 < 100 纳秒,低于 CXL 1.1 的 150 纳秒,更适配低延迟场景(如实时推理)。
2. 当前技术挑战
PCIe 5.0 交换机限制:商用 PCIe 5.0 交换机芯片的 NTB 端口不支持标准规定的 “大地址转换窗口”,导致全局地址空间规模受限(当前仅支持 256TB,未来需扩展至 PB 级以适配超大规模 AI 集群);多机架扩展:当前方案聚焦单机架(Rack)内解耦,跨机架 PCIe 互联需解决信号衰减与延迟叠加问题,需结合光互连技术进一步突破。
五、总结与未来方向
台达电子的 PCIe 资源解耦方案通过 “NTB 地址翻译 + 全局地址空间 + 动态池化”,成功打破传统硬件绑定,将 AI 数据中心资源利用率提升 30%-50%,同时保持接近本地的性能体验。未来需围绕两大方向深化:
硬件适配优化:推动 PCIe 5.0/6.0 交换机厂商支持大地址转换窗口,扩展全局地址空间至 PB 级;跨机架扩展:结合 PCIe 光模块(如 800G PCIe 光互连),实现多机架资源池化,支撑万卡级 AI 集群;软件生态完善:开发资源调度平台,实现 “任务需求 - 资源分配 - 故障恢复” 的全自动化,降低运维复杂度。
方案为 AI 数据中心提供了 “低成本、易落地、高性能” 的资源优化路径,尤其适配中小规模智算中心(如 100-500 台服务器)的改造需求,是平衡性能与成本的优选技术。
284