AI加速与高性能计算的性能瓶颈,往往不仅仅取决于数字逻辑算力(GPU/ASIC核心数量、工艺节点),模拟电路的电源、接口与时钟系统也在很大程度上决定了整个平台的效率和极限。下面我从电源管理、SerDes、时钟三方面逐一分析。
一、电源管理
挑战
电流需求巨大:一颗先进工艺的AI加速芯片(如H100,几百瓦功耗),单颗核心可能需要数百安培的瞬态电流,且压降容忍度极低(±1~2%)。
瞬态响应:AI workload 负载变化快(矩阵计算burst),电源必须具备极快的瞬态响应,否则会触发 droop → 降频保护 → 算力下降。
转换效率:从48V/12V母线到0.8V甚至0.5V核心电压,如果效率低1-2%,对机房级别的PUE就是巨大的损耗。
瓶颈性
现阶段?VR(Voltage Regulator)效率、封装内电源分布、电源完整性?是系统能否持续跑满功耗的重要瓶颈。
若电源无法支撑峰值电流 → GPU/AI芯片?不得不降频,这直接限制了TOPS/FLOPS。
二、高速SerDes
挑战
带宽需求爆炸:AI训练需要 GPU-GPU 高速互联,SerDes 已经进入?112G → 224G PAM4?时代。
信号完整性:在 >100Gbps 下,通道损耗、抖动、串扰、封装寄生都成为巨大挑战。
功耗问题:SerDes 是片上功耗大户之一,高速PAM4链路每bit能耗过高会拖累整体能效比。
瓶颈性
吞吐量与功耗的权衡使 SerDes 成为性能瓶颈之一。
链路带宽不足 → 多GPU训练规模受限;能效低 → 系统TCO(总拥有成本)飙升。
Nvidia、Broadcom、Marvell 正在大力优化?DSP equalization、ADC-based SerDes、co-packaged optics,正说明瓶颈严重。
三、时钟与同步
挑战
低抖动需求:在高速 SerDes 与大规模并行计算中,时钟抖动直接转化为误码率(BER)和收敛速度。
分布复杂:上千个核心、上百个SerDes通道,需要大规模低延迟的时钟分发网络。
多芯片同步:Chiplet架构/多GPU系统,需要跨Die、跨板卡的相位一致性,要求极高。
瓶颈性
在 AI/HPC 中,抖动和相位噪声直接影响通信与计算精度,尤其在?PAM4/112G+?SerDes下。
若时钟系统不稳,会导致?误码率提升、收敛变慢,间接拖累整体算力。
四、总结与趋势
电源管理:已成为限制AI加速器性能的关键瓶颈之一(供电不足 → 降频)。
SerDes:带宽与能效是系统扩展的“天花板”,目前是 HPC/AI 最大的瓶颈之一。
时钟系统:虽然不如前两者直观,但在高带宽互联和Chiplet架构下,低抖动时钟已成为隐形瓶颈。
五、未来演进方向
电源?→ 多相VR、封装内集成电感(IVR)、48V直供、GaN/SiC功率器件。
SerDes?→ 向?CPO(Co-packaged Optics)?发展,以光互连突破铜线极限。
时钟?→ 多层次分布式PLL、数字辅助校准,降低抖动。
结论:在AI/HPC系统中,电源管理 + SerDes + 时钟的确是显著的性能瓶颈。未来几年,能否突破这些模拟电路环节,决定了AI算力的“上限”和能效比。
425