详解PCIe网络资源解耦技术

本文聚焦 AI 数据中心资源利用率低的痛点，提出基于 PCI Express（PCIe）网络的资源解耦方案，通过构建机架级全局地址空间实现硬件资源灵活池化。详细内容可参阅"2025 OCP （Future Technologies合集）"。

本文所有资料都已上传至“智能计算芯知识”星球AI峰会合集技术专栏。

一、背景：资源解耦的必要性与 PCIe 的技术适配性

1. 传统机架架构的局限性

资源绑定僵化：传统机架中，CPU、内存、SSD、GPU 等硬件资源与主机（Host）固定绑定，若某台主机承担内存密集型任务（如大模型推理）而另一台承担 CPU 密集型任务（如数据预处理），会导致 “内存过剩主机” 与 “CPU 过剩主机” 的资源浪费，整体利用率不足 50%；需求驱动变革：AI workload 多样性要求资源 “按需组合”—— 例如临时组建 “多 GPU + 大内存” 的训练集群，传统架构无法满足动态调整需求，需通过解耦技术打破硬件绑定。

2. PCIe 作为解耦网络的核心优势

PCIe 凭借 “低延迟、高带宽、可靠性强” 的特性，成为机架级资源解耦的理想技术选择：

性能参数领先：PCIe 5.0 单通道带宽达 32Gbps，每跳延迟（per-hop latency）<100 纳秒，支持 GPU 与远程内存的高速数据交互，性能接近本地硬件直连；原生硬件支持：几乎所有算力硬件（GPU、SSD、NIC）均原生支持 PCIe 接口，无需额外适配即可接入解耦网络，降低产业落地门槛；操作兼容性：PCIe 操作本质为内存读写（如 DMA 传输、中断交付），可直接复用现有硬件驱动与软件栈，避免重构复杂生态。

二、核心方案：PCIe 资源解耦的技术架构与关键组件

1. 资源解耦机架（Resource-Disaggregating Rack）目标

通过 PCIe 网络构建 “机架内任意主机访问任意资源” 的能力：

跨主机资源共享：Host 1 的 CPU 可直接访问 Host 2 的内存，无需经过 Host 2 的 CPU 转发，消除中间层延迟；硬件资源池化：将 SSD、NIC、GPU、AI 加速器、内存等拆分为独立资源池，主机可根据需求动态申请 —— 例如某训练任务需 8 块 GPU+2TB 内存，可从池化资源中临时分配，任务结束后释放回池；软件定义服务器（SDS）：通过软件实时定义物理服务器的资源组成，实现 “CPU 密集型”“内存密集型”“算力密集型” 任务的灵活适配。

2. PCIe 架构与多根 I/O 虚拟化（MR-IOV）突破

（1）PCIe 基础架构特性

地址分配：每个 PCIe 设备（如 GPU、SSD）被分配唯一设备 ID 与地址范围（BAR，Base Address Register），设备按树形结构挂载于根复合体（Root Complex），仅接收目标地址在自身 BAR 范围内的 PCIe 数据包；核心操作：支持枚举 / 探测 / 配置、DMA 设置、DMA 负载传输、中断交付四类操作，所有操作均通过内存读写实现，确保与现有软件生态兼容。

（2）非透明桥（NTB）：跨域访问的关键组件

传统 PCIe 设备仅能在单一 “域（Domain）” 内交互（如某主机的根复合体仅能管理自身域内设备），NTB 通过以下机制打破域隔离：

双向地址翻译：NTB 在两个 PCIe 域间建立地址映射表，例如将 Domain 1 的地址段 “10000-20000” 翻译为 Domain 2 的 “130000-140000”，实现跨域内存访问；设备 ID 隔离：通过请求者 ID（Requester ID） lookup 表区分不同域的设备，防止伪造响应攻击，确保数据安全；替代 MR-IOV 功能：当前商用 PCIe 交换机 / 端点设备不支持多根（MR）能力，NTB 通过单根（Single-Root）端点实现等效的多域虚拟化，降低硬件依赖。

3. 机架级全局地址空间（Rack-Wide Global Address Space）

（1）架构设计

通过 NTB 与 IOMMU（输入输出内存管理单元）协同，构建覆盖整个机架的全局地址空间：

地址划分：将地址空间按资源类型分配，例如为计算主机（CH）、管理主机（MH）、内存池分别划分独立区间（如 CH1 内存对应 “32GB-64GB”，CH2 内存对应 “64GB-96GB”）；直接远程内存访问（Direct Remote DMA）：主机可通过全局地址直接读写远程资源 —— 例如 MH 向 “32GB+10” 地址写入数据，会自动路由至 CH1 的本地地址 “10”；CH1 向 “96GB+30” 写入数据，会路由至 CH2 的本地地址 “30”，延迟与本地访问差异 < 20%。

（2）安全隔离机制

为避免恶意主机 / 虚拟机（VM）越权访问资源，通过多层防护确保安全性：

VF - 主机隔离：PCIe SR-IOV（单根 I/O 虚拟化）生成的虚拟功能（VF）仅能访问所属 CH 的资源，其他 CH 的地址转换表（LUT）与 IOMMU 会拦截越权请求；VM 间隔离：分配给某 VM 的 VF 仅能访问该 VM 的内存，由 CH 的 IOMMU 控制权限；跨主机防护：CH 无法访问其他 CH 或 MH 的内存，由目标设备的 IOMMU 阻断非法请求。

三、核心能力：动态资源池化与关键应用场景

1. 动态资源池化（Dynamic Resource Pooling）实现

实时资源调度：管理主机（MH）通过全局地址空间监控各资源池负载，当某训练任务提交 “4GPU+1TB 内存” 需求时，MH 自动从 GPU 池（如 CH2 的 GPU 1/2、CH3 的 GPU 3/4）与内存池（如 CH1 的 512GB、CH4 的 512GB）分配资源，并通过 PCIe 网络建立逻辑连接；任务结束释放：任务完成后，资源自动回池，可供下一个任务复用，整体硬件利用率提升至 80% 以上。

2. 关键应用场景

AI 训练集群：临时组建 “多 GPU + 分布式内存” 的训练环境，避免 GPU 与本地内存的绑定限制，支持超大规模模型（如 100B 参数）的内存扩展；混合 workload 适配：同一机架内，部分主机调用远程 GPU 处理视觉任务，部分主机调用远程内存处理数据库查询，资源按需流动；故障冗余：若某 CH 的 GPU 故障，可快速从 GPU 池调度备用设备，通过全局地址重映射恢复服务，RTO（恢复时间目标）<1 分钟。

四、技术对比与当前挑战

1. 与 CXL（Compute Express Link）的差异

CXL 是另一种资源解耦技术，PCIe 解耦方案的核心优势在于：

生态兼容性：PCIe 无需硬件厂商推出 CXL 专用设备，现有 PCIe GPU/SSD 可直接使用，而 CXL 需硬件原生支持，生态成熟度较低；功能覆盖：PCIe 解耦支持端到端中断交付（如远程 GPU 向本地 CPU 发送中断）、PCIe 承载以太网（Ethernet over PCIe）、多播带宽放大（Multicast），功能更全面；延迟控制：PCIe 每跳延迟 < 100 纳秒，低于 CXL 1.1 的 150 纳秒，更适配低延迟场景（如实时推理）。

2. 当前技术挑战

PCIe 5.0 交换机限制：商用 PCIe 5.0 交换机芯片的 NTB 端口不支持标准规定的 “大地址转换窗口”，导致全局地址空间规模受限（当前仅支持 256TB，未来需扩展至 PB 级以适配超大规模 AI 集群）；多机架扩展：当前方案聚焦单机架（Rack）内解耦，跨机架 PCIe 互联需解决信号衰减与延迟叠加问题，需结合光互连技术进一步突破。

五、总结与未来方向

台达电子的 PCIe 资源解耦方案通过 “NTB 地址翻译 + 全局地址空间 + 动态池化”，成功打破传统硬件绑定，将 AI 数据中心资源利用率提升 30%-50%，同时保持接近本地的性能体验。未来需围绕两大方向深化：

硬件适配优化：推动 PCIe 5.0/6.0 交换机厂商支持大地址转换窗口，扩展全局地址空间至 PB 级；跨机架扩展：结合 PCIe 光模块（如 800G PCIe 光互连），实现多机架资源池化，支撑万卡级 AI 集群；软件生态完善：开发资源调度平台，实现 “任务需求 - 资源分配 - 故障恢复” 的全自动化，降低运维复杂度。

方案为 AI 数据中心提供了 “低成本、易落地、高性能” 的资源优化路径，尤其适配中小规模智算中心（如 100-500 台服务器）的改造需求，是平衡性能与成本的优选技术。