该文档由 Astera Labs 的 Caleb Shetland 主讲,聚焦 AI 平台中混合部署 PCIe 5(第 5 代 PCI Express)与 PCIe 6(第 6 代 PCI Express)的核心价值、系统设计挑战及解决方案。详细内容可参阅“2025 OCP APAC Summit(Server合集上)”,“2025 OCP APAC Summit(Server合集下)”。
下载链接:《2025 OCP APAC Summit(Storage合集)2025 OCP APAC Summit(Rack & Power合集下)2025 OCP APAC Summit(Rack & Power合集上)2025 OCP APAC Summit(Server合集下)2025 OCP APAC Summit(Server合集上)OCP2025大会资料合集(4)OCP2025大会资料合集(3)OCP2025大会资料合集(2)OCP2025大会资料合集(1)... ...本文所有资料都已上传至“智能计算芯知识”星球AI峰会合集技术专栏。
一、混合使用 PCIe 5 与 PCIe 6 的核心优势
混合架构可平衡 “当前需求” 与 “未来扩展性”,为 AI 平台带来多重价值:
即时获取 PCIe 6 带宽红利:无需等待全生态升级至 PCIe 6,即可通过部分组件(如高带宽 GPU、200G NIC)部署,提升 AI 推理 / 训练的数据传输效率。复用现有 PCIe 5 资产:利用已部署的 PCIe 5 设备(如服务器、交换机),降低升级成本,避免资源浪费;同时依托成熟的 PCIe 5 生态,享受组件选择多、库存充足、交货周期短的优势。未来可扩展性:设计阶段预留 PCIe 6 兼容接口,后续可直接替换 PCIe 5 组件为 PCIe 6 版本,无需重构系统,实现 “渐进式升级”。带宽匹配优化:通过智能交换架构(Smart Switch Fabric),根据不同 AI workload 的带宽需求,将 PCIe 5/6 端点(Endpoint)与主机(Host)灵活匹配,避免单一世代架构的带宽瓶颈。
二、混合架构的核心设计挑战(三大关键领域)
PCIe 5 到 PCIe 6 的协议、机制差异(如从 TLP 帧到 Flit 帧、NRZ 到 PAM-4 信号),导致混合部署存在多维度挑战,需重点关注以下三类问题:
1. 段(Segment)ID 兼容问题(Flit 模式 / FM 与非 Flit 模式 / NFM 差异)
问题根源:PCIe 6 引入 “段(Segment)” 定义(用于多根复合体拓扑),而 PCIe 5 主机不识别该定义,且部分 PCIe 5 设备可能存在 “私有段实现”,与 PCIe 6 的标准段机制冲突。例如,PCIe 6 交换机自枚举时,可能自动分配段 ID,导致 PCIe 5 主机无法识别,引发设备兼容性故障。设计重点:需通过硬件 / 软件限制,禁止 PCIe 6 端点在 PCIe 5 主机环境中使用段 ID,同时对传统 “自枚举解决方案” 进行额外兼容性验证,避免拓扑冲突。
2. 重放(Replay)与排序(Ordering)机制冲突
问题根源:PCIe 5 与 PCIe 6 的重放、排序规则存在本质差异:
-
-
- 重放机制:PCIe 5 基于 “TLP(事务层数据包)” 重放,支持 “Back-to-N” 批量重放;PCIe 6 基于 “Flit(帧片段)” 重放,支持单 Flit 精准重放。排序规则:跨 FM/NFM(Flit 模式 / 非 Flit 模式)边界时,排序规则需强制生效,但两种世代的机制差异可能导致 “隐性性能问题”(而非直接错误),例如 PCIe 5 设备与 PCIe 6 设备通信时,因排序等待导致延迟增加,且难以追溯根因。
-
设计重点:强化流量测试验证,通过模拟 “RO( Relaxed Ordering,松弛排序)”“IDO(Independent Domain Ordering,独立域排序)” 等流量场景,以及多样化端点组合 / AI workload,暴露潜在排序问题;避免仅依赖常规基准测试,需针对性验证跨世代通信的排序稳定性。
3. FM/NFM 边界的性能不连续性
问题根源:PCIe 5(NFM)与 PCIe 6(FM)的协议开销、数据处理方式不同,导致带宽与延迟在边界处出现 “突变”,具体包括:
设计重点:
-
- 增强性能监控遥测:需细分每个组件的诊断数据,例如单独监控 “共享 / 专用 FC(Flow Control,流控制)信用”,追踪缓冲区 / 资源使用率,定位边界处的带宽瓶颈。设计 “中断驱动的背压检测”:通过硬件中断(可选择带外中断至 BMC 或带内中断至主机)实时捕捉背压事件(如端点阻塞),避免性能问题扩散;需基于实验数据设定个性化阈值,适配不同 AI 场景。
三、混合架构的性能问题案例与应对
文档通过两类场景对比,强调 “早期检测” 的重要性:
未及时检测的风险:集群规模部署后发现任务完成速度慢,但单节点基准测试正常,因问题源于跨世代通信的隐性性能损耗,难以定位,最终导致问题长期存在。早期检测的解决方案:开发阶段通过低级别遥测数据(如交换机 FC 监控),捕捉间歇性背压(例如两个 PCIe 5 端点向一个 PCIe 6 端点写入时的异常阻塞),排查根因(如未启用 IDO 导致排序等待、多函数设备的目标冲突),联合端点厂商更新固件,在部署前解决问题。
四、其他待关注的挑战与行动建议
1. 额外潜在挑战
除上述三类核心问题外,混合架构还需应对:
- 协议转换边缘场景(如 FM/NFM 翻译错误、前缀转 OHC 格式异常)、信号差异(NRZ vs PAM-4 的信号恢复);设备特性变化(如 GPU/NIC 的速率不匹配、损坏 TLP 处理机制变更、共享 FC 信用的 14 位标签兼容);Flit 相关问题(打包规则违规、CRC/FEC 带来的带宽开销、跨世代错误处理)。
2. 核心行动建议
放弃 “传统经验依赖”:PCIe 5 到 6 的变化(如 Flit 机制、PAM-4)无成熟路径可循,必须通过严格的系统分析与全场景验证(而非仅复用前代设计)保障稳定性。重视端点(EP)特性:设计时需深度评估 PCIe 6 端点的功能集(如段 ID 支持、排序模式、背压处理),避免因端点与主机世代不兼容导致故障。部署中断驱动背压检测:将该功能纳入硬件设计,作为跨世代通信的 “性能安全阀”。关注生态动态:通过 Astera Labs 的博客等渠道,跟踪 PCIe 5/6 混合部署的最新技术指南与案例。
五、总结
混合使用 PCIe 5 与 PCIe 6 是 AI 平台 “低成本升级、高扩展性” 的理想选择,但需直面协议差异带来的兼容性、性能、稳定性挑战。核心应对思路是:提前识别跨世代边界的关键冲突点,通过强化测试验证、细化性能监控、设计针对性硬件 / 软件机制,将问题解决在部署前,最终实现 AI 平台的高效、稳定运行。
407