T
traeai
登录
返回首页
Google Cloud Blog

TPU上的万亿参数模型集群可靠性

8.5Score
TPU上的万亿参数模型集群可靠性

TL;DR · AI 摘要

文章提出AI模型训练需要从实例级可靠性转向集群级可靠性,以应对万亿参数模型对大规模计算基础设施的高要求。

核心要点

  • 集群级可靠性是处理万亿参数模型的关键
  • 使用二项分布建模集群可用性,确保95%训练效率
  • TPU超pod由数千个芯片组成,需保持所有单元健康

结构提纲

按章节快速跳转。

  1. AI训练需要大规模计算资源,传统实例级可靠性已不适用。

  2. TPU超pod由数千个芯片组成,需保持所有单元健康以保证训练进度。

  3. 使用二项分布建模集群可用性,确保95%训练效率。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • 集群级可靠性
    • AI训练需求
      • 万亿参数模型
      • 大规模计算资源
    • 传统可靠性模型
      • 实例级可靠性
      • 适用于微服务架构
    • 新可靠性框架
      • 集群级可靠性
      • 基于二项分布建模

金句 / Highlights

值得收藏与分享的关键句。

#TPU#AI#可靠性#集群计算
打开原文

标题:TPU 上万亿参数模型的集群可靠性

URL 来源:https://cloud.google.com/blog/products/compute/cluster-reliability-for-trillion-parameter-models-on-tpus/

发布日期:2026-05-11

Markdown 内容: 前沿人工智能模型重新定义了计算单位。在万亿参数规模下,人工智能训练需要数千个相互连接的组件,在工业级部署中协调运作,作为一个单一的大型实体。

同样地,就可靠性而言,整体基础设施的可用性才是关键。然而,近二十年来,实例级别的可靠性一直是云的标准。这种设计适用于微服务和水平可扩展的应用程序,将基础设施视为一组小型独立单元。这种模型对于大规模人工智能工作负载来说是根本不够的。

我们认为,可靠性必须从实例级别转向集群级别。

十多年以来,Google 一直在大规模运行张量处理单元(TPU)集群,实现了符合现代人工智能工作负载架构需求的可靠性。在这篇博客中,我们介绍了 Google Cloud TPU 的集群级别可靠性框架,该框架专注于超级 pod 级别的集体性能,并且我们内部用于构建世界上最先进的 AI 模型。这个框架是当前 TPU 生产环境中的操作标准,也是我们最近宣布的 第八代 TPU 的架构蓝图。

**人工智能超级计算机的可靠性**

TPU 超级 pod 由数千个芯片组成,这些芯片被排列成立方体(64 个 TPU),每个立方体内的每个芯片通过高速芯片间互连(ICI)链接连接,并通过动态可配置的光电路交换(OCS)网络连接所有立方体以形成一个超级 pod。

为了实现系统范围内的训练进度,我们必须最大化超级 pod 中完全健康的立方体数量。由于人工智能模型的性能依赖于高带宽、低延迟的通信,每个立方体内的每个芯片和 ICI 链接都必须正常运行,才能为训练进度做出贡献。基于这些架构现实,我们的集群级别框架有助于定义行业如何在人工智能时代实现可靠性,从实例级别可靠性转向规模可用性

**深入探讨:规模可用性的数学原理**

实例级别的可靠性模型通常是确定性的,但工业级人工智能部署需要一种概率方法,涉及数千个芯片。在传统设置中,您可能会跟踪单个芯片的平均故障间隔时间(MTBF)。然而,在前沿人工智能的规模下,随着组件数量的增长,集群级别的 MTBF 会急剧下降。

为了可视化规模增长如何迅速削弱信心,我们可以参考简单的界限,如 马尔可夫不等式

图片 1: https://storage.googleapis.com/gweb-cloudblog-publish/images/1_500px.max-900x900.jpg

如果我们定义 _X_ 为失败的立方体数量,马尔可夫不等式提醒我们,随着集群规模的增加,期望的失败数 _E[X]_ 增加,保持低于严格失败阈值的概率变得越来越难以保证,除非进行系统性的架构更改。

虽然马尔可夫不等式为规模风险提供了一个有用的参考,但我们使用二项分布对集群整体健康状况进行建模。对于由 n 个独立单元(立方体)组成的超级 pod,我们将至少有 _k_ 个完全运行且互联的立方体的概率定义为 _n_ 次独立试验成功的累积分布函数。为了确保 95% 的置信区间以保证训练生产力,我们求解 _k_,其中:

图片 2: https://storage.googleapis.com/gweb-cloudblog-publish/images/2_OOU1AWa.max-900x900.jpg

其中 _n_ 表示超级 pod 中的总立方体数,_p_ 表示立方体级别的总体可用性。

这个模型取代了实例级别的模型,采用了一种拓扑感知的框架,反映了大规模训练的实际性能需求,确保更大的计算块是健康且连接的,可以推动持续的训练进度。

**现代人工智能硬件的规模**

为了展示这一新的可靠性模型,我们使用了 Ironwood,这是 Google 通用可用的第七代 TPU,也是 Gemini 和 Nano Banana 等先进模型背后的定制芯片。

图片 3: https://storage.googleapis.com/gweb-cloudblog-publish/images/3_0VPvHqE.max-1600x1600.png

图片显示:Ironwood 超级 pod 的一部分,直接在一个域中连接了 9,216 个 Ironwood TPU。

Ironwood超级Pod是一种密集、高性能的织物,由9,216个芯片集成到一个计算域中。它被组织成144个立方体,每个立方体包含64个芯片。在这些立方体中,ICI链接创建了一个极其密集的全互连网络结构,为立方体内的分布式操作提供巨大的带宽和低延迟连接。为了形成超级Pod,144个立方体通过OCS连接。对于大型任务,可以通过将多个立方体在一个Pod内互联成一个超级-切片,或者将多个切片连接起来形成多切片集群来配置容量。多个超级Pod之间的立方体可以通过数据中心网络连接,以运行更大的工作负载。

使用这种模型,我们确定Ironwood超级Pod的拓扑可用性为在整个月份的95%时间内有130个立方体可用。这相当于一个8,320个芯片完全运行并通过ICI和OCS相互连接的大计算块,建立了一个专门针对英雄任务(前沿AI的大规模训练)优化的可靠性模型。

集群大小与其统计可用性之间的关系是非线性的。通过调整所需的置信水平,我们可以确定可以以统计确定性支持的切片大小。对研究人员来说,这种映射提供了容量可用性曲线。一个需要在关键任务运行中实现99%可用性的组织可以将其切片大小优化为125个立方体,而那些追求最大规模的组织则可以在95%的置信区间内使用130个立方体。

图4:https://storage.googleapis.com/gweb-cloudblog-publish/images/4_KMrVuyM.max-1200x1200.jpg

Ironwood超级Pod(144个立方体)的容量可用性曲线

这种新的可靠性模型通过以下方式最大化整个超级Pod的利用率:

  • 完全访问:该模型不限制容量利用率;它专注于完全健康的立方体的可用性。虽然单个芯片或ICI故障会导致整个立方体被归类为不健康,但客户仍然可以继续访问立方体内的剩余容量。这使得大多数Ironwood超级Pod可用于使用,同时优化高风险、大规模训练的计算足迹。
  • 优化资源使用:虽然130个立方体模型主要关注大规模训练运行,但完整的超级Pod仍可用于异构的工作负载组合。这使研究人员可以利用剩余的立方体进行研究实验、推理和开发/测试工作负载,从而最大化超级Pod的利用率,同时不影响主要训练运行的可靠性。

我们的客户目前正在大规模使用Ironwood,这个模型使他们能够训练最苛刻的英雄任务。

**提升机器学习生产力**

Goodput指标是衡量机器学习生产力的主要指标。我们的新可靠性标准为goodput提供了确定性的基础,并经过设计以最大化这一指标,以便为前沿研究所需的庞大规模基础设施做好准备,使其作为一个整体运行。

通过使全部资源可供大规模训练运行使用,该模型实现了高调度goodput,这是三个goodput指标之一。结合软件堆栈,这种基础设施级别的可用性有助于实现高总体goodput。我们通过三层可靠性模型实现这一点:

  1. 基础设施:TPU超级Pod提供了容量足迹,确保必要的规模在物理上可用且已连接。
  1. 框架:JAX和Pathways提供弹性,重新配置或热插拔绕过故障节点,以保持前进进度,而无需完全重启。
  1. 应用:容错机制如自动检查点多级检查点保留训练状态,因此在发生故障时最小化损失的进度。

**推动下一代人工智能突破**

集群级别的可靠性模型标志着人工智能时代的全新标准的开始,其中人工智能超级计算机是一个可信赖的工业规模创新引擎。通过将我们的可靠性策略与前沿模型的需求相匹配,我们正在使下一代人工智能突破更快、更可靠、更可预测。点击此处了解更多信息并开始使用TPU。

发布于

AI 可能会生成不准确的信息,请核实重要内容