• 正文
  • 相关推荐
申请入驻 产业图谱

在AI加速与高性能计算中,模拟电路(电源管理、SerDes、时钟)会成为性能瓶颈吗?

09/15 11:15
425
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

AI加速与高性能计算的性能瓶颈,往往不仅仅取决于数字逻辑算力(GPU/ASIC核心数量、工艺节点),模拟电路电源、接口与时钟系统也在很大程度上决定了整个平台的效率和极限。下面我从电源管理、SerDes、时钟三方面逐一分析。


一、电源管理

挑战

电流需求巨大:一颗先进工艺的AI加速芯片(如H100,几百瓦功耗),单颗核心可能需要数百安培的瞬态电流,且压降容忍度极低(±1~2%)。

瞬态响应:AI workload 负载变化快(矩阵计算burst),电源必须具备极快的瞬态响应,否则会触发 droop → 降频保护 → 算力下降。

转换效率:从48V/12V母线到0.8V甚至0.5V核心电压,如果效率低1-2%,对机房级别的PUE就是巨大的损耗。

瓶颈性

现阶段?VR(Voltage Regulator)效率、封装内电源分布、电源完整性?是系统能否持续跑满功耗的重要瓶颈。

若电源无法支撑峰值电流 → GPU/AI芯片?不得不降频,这直接限制了TOPS/FLOPS。


二、高速SerDes

挑战

带宽需求爆炸:AI训练需要 GPU-GPU 高速互联,SerDes 已经进入?112G → 224G PAM4?时代。

信号完整性:在 >100Gbps 下,通道损耗、抖动、串扰、封装寄生都成为巨大挑战。

功耗问题:SerDes 是片上功耗大户之一,高速PAM4链路每bit能耗过高会拖累整体能效比。

瓶颈性

吞吐量与功耗的权衡使 SerDes 成为性能瓶颈之一。

链路带宽不足 → 多GPU训练规模受限;能效低 → 系统TCO(总拥有成本)飙升。

Nvidia、Broadcom、Marvell 正在大力优化?DSP equalization、ADC-based SerDes、co-packaged optics,正说明瓶颈严重。


三、时钟与同步

挑战

低抖动需求:在高速 SerDes 与大规模并行计算中,时钟抖动直接转化为误码率(BER)和收敛速度。

分布复杂:上千个核心、上百个SerDes通道,需要大规模低延迟的时钟分发网络。

多芯片同步:Chiplet架构/多GPU系统,需要跨Die、跨板卡的相位一致性,要求极高。

瓶颈性

在 AI/HPC 中,抖动和相位噪声直接影响通信与计算精度,尤其在?PAM4/112G+?SerDes下。

若时钟系统不稳,会导致?误码率提升、收敛变慢,间接拖累整体算力。


四、总结与趋势

电源管理:已成为限制AI加速器性能的关键瓶颈之一(供电不足 → 降频)。

SerDes:带宽与能效是系统扩展的“天花板”,目前是 HPC/AI 最大的瓶颈之一。

时钟系统:虽然不如前两者直观,但在高带宽互联和Chiplet架构下,低抖动时钟已成为隐形瓶颈。

五、未来演进方向

电源?→ 多相VR、封装内集成电感(IVR)、48V直供、GaN/SiC功率器件

SerDes?→ 向?CPO(Co-packaged Optics)?发展,以光互连突破铜线极限。

时钟?→ 多层次分布式PLL、数字辅助校准,降低抖动。


结论:在AI/HPC系统中,电源管理 + SerDes + 时钟的确是显著的性能瓶颈。未来几年,能否突破这些模拟电路环节,决定了AI算力的“上限”和能效比。

相关推荐