• 正文
  • 相关推荐
申请入驻 产业图谱

一文了解AI工作负载的五大核心特征

10/15 09:42
510
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

首先,AI工作负载具有不同的计算需求。

AI 工作负载涉及计算密集型任务,需要高水平的处理能力来处理海量数据集并高速执行复杂计算。因此,与依赖CPU的传统工作负载不同,AI工作负载使用GPU和TPU。此外,AI工作负载需要先进的高容量存储技术(例如全闪存阵列)和高速互连,以促进快速数据访问和处理。

其次,AI 工作负载比传统工作负载耗电量大得多。

AI任务使用GPU和TPU进行大规模并行处理、处理大量数据并运行复杂模型,这些模型依赖于高性能计算系统长时间处于或接近满负荷的持续运行。此外,许多AI过程需要这些处理器在工作负载过程中反复以峰值性能工作,从而导致大量功耗,与传统工作负载中使用的标准CPU相比要高得多。

第三,AI部署密度高于传统工作负载。

GPU通常密度较高,其热设计功率或TDP迅速上升,达到1000W以上,远高于传统 CPU。此外,AI工作负载要求GPU尽可能靠近放置以产生集群效应。我们谈论的是10,000(7MW)甚至100,000个芯片集群。因此,设计为充当单台计算机的GPU服务器的物理布置也增加了密度。

结果是数据中心的机架密度增加。虽然现有数据中心的平均服务器部署仍保持在每机架10 kW左右,但最近针对AI的部署已达到该水平的五倍甚至十倍。

第四,AI工作负载的功耗比传统工作负载更具可变性。

功率需求变化很大,因为AI工作负载的计算强度会随着时间的推移而发生很大变化。与传统负载相比,加速时间要短得多,传统负载在很短的时间内就达到了满负荷。例如,深度学习模型在训练阶段可能需要强大的计算能力,但在推理或测试阶段则需要更少的计算能力。这导致电力需求波动,在计算活动高峰期急剧增加。

第五,可变延迟要求。

在AI模型的训练阶段,与最终用户的低延迟连接通常不如其他数据中心部署那么重要。在处理数据集时,训练期间的重点是吞吐量和准确性,而不是即时响应时间。

但是,一旦AI模型开始推理,低延迟就变得至关重要。然后,AI部署很可能必须位于靠近数据开发地点或最终用户使用模型输出的数据中心。

相关推荐