在当前的AI算力范式下,扩大算力的一个基本逻辑是不断提高“堆叠”密度,由此带来(单位空间内)的能量密度持续上升,将进一步推动液冷技术的应用。基于此,对于未来智算中心液冷技术发展方向可以概括为以下两点:
01、进一步降低风冷占比
目前主流的冷板式液冷仍然存在较大比例的热量需要风冷解决,这对智算中心的复杂度造成了很大影响。进一步降低风冷占比,是进一步提升单机柜功率密度、降低数据中心复杂度的迫切需要。传统冷板方案可进一步优化服务器和冷板设计,将主要发热器件尽可能使用冷板散热,单相浸没式液冷、全覆盖冷板液冷也是可以大力发展的方向。单相浸没式液冷在解决高功率芯片扩热问题后,可以实现100%液冷。全覆盖冷板方案可以较好的适配AI服务器,而不用考虑普通服务器的通用性要求。
进一步降低风冷占比后,可能会面临以下难点:
芯片层面
由于制程改进的效果越来越有限,利用先进封装技术将多个较小的芯片拼装为一体的Chiplet技术正得到普遍的应用,其中的一个重要趋势是3D堆叠,这意味着单位面积上的晶体管数量会继续高速增长,如何将芯片封装内的热量有效的传导出来,将成为行业面对的一大挑战。
机柜层面
以NVIDIA GB200 NVL72为代表的解决方案目前采用风液混合模式,柜内互联采用大量的铜缆,对散热风道的设计形成了一定的阻碍。随着机柜功率的进一步提高,需要提高冷板在各节点内的覆盖率,向全液冷的方向演进。
供电层面
供电单元(PSU)的发热量在服务器整体中占比并不高,有可能是全液冷进程中最后解决的一个环节,目前已经有多个厂商提出了不尽相同的实现。另一个需要注意的是整机柜服务器的供电铜排(busbar),在电压维持48V的情况下,铜排上要承载的电流高达数千安培,如果机柜内的节点实现了高度的液冷化乃至全液冷,铜排的发热量如何带走也成了一个必须考虑的问题。在过去两年中,开放计算社区在将冷板式液冷技术引入铜排方面进行的探索,已经取得了初步的进展。
02、进一步提高散热能力
随着AI芯片功率的进一步提升(1500W-2000W以上),3DVC散热器已达瓶颈(1000W),单相水冷板也将很快到达散热能力瓶颈(1500W),相变散热技术是必然的方向,包括相变浸没液冷和相变冷板液冷。相变冷板又包括泵驱两相(Pumped two-phase)冷板和自驱动两相(Passive 2-Phase)冷板等方向。相比较而言,泵驱两相冷板国外有较多的研究,但其复杂度较高、可靠性问题比较难以解决;自驱动两相冷板的技术基于环路热管(LHP)技术,挑战更大,但其具有解热能力强、高可靠、易运维、长寿命等优点。
来源:《智算中心液冷技术发展报告(2024版)》(CDCC主编)
								
								
								
1218