Amazon’s AI Resurgence: AWS & Anthropic’s Multi-Gigawatt Trainium Expansion

TL;DR · AI 摘要
Amazon通过Anthropic和Trainium的扩张计划,有望在AI领域实现复苏,预计到2025年底年增长率将超过20%。
核心要点
- Anthropic年收入达到50亿美元,增长五倍。
- AWS正在建设超过1吉瓦的数据中心容量。
- 预计AWS将在2025年底实现超过20%的年增长率。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Amazon AI Resurgence
金句 / Highlights
值得收藏与分享的关键句。
Anthropic年收入达到50亿美元,增长五倍。
AWS正在建设超过1吉瓦的数据中心容量。
预计AWS将在2025年底实现超过20%的年增长率。
Amazon 的 AI 复兴:AWS 和 Anthropic 的多吉瓦 Trainium 扩张

[](https://semianalysis.com/)
订阅 登录
Amazon 的 AI 复兴:AWS 和 Anthropic 的多吉瓦 Trainium 扩张
Anthropic 多吉瓦集群,Trainium 扩展,最佳的每内存带宽总拥有成本,系统级路线图,Bedrock 和内部模型
Jeremie Eliahou Ontiveros,Dylan Patel,AJ Kourabi 和 Myron Xie
2025 年 9 月 3 日
∙ 付费
20
2
分享
两年半前,我们指出了 AWS 即将面临的“云危机”。如今,证据已经堆积起来。AWS 是亚马逊帝国的皇冠明珠,创造了集团约 60% 的利润,并主导着有利可图的云计算市场。但它难以将其优势转化为新的 GPU/XPU 云时代。
微软 Azure 目前在季度新云收入方面领先市场,而谷歌云与 AWS 之间的差距也明显缩小,特别是随着我们过去一个月一直在报道的谷歌在 TPU 方面的重大举措(谷歌加速器模型)。市场已经注意到这一点。今年到目前为止,亚马逊在四大科技和人工智能巨头中表现最差,投资者因亚马逊在人工智能方面的势头减弱而下调了对该公司的估值。

来源:SemiAnalysis 核心研究,公司文件
今天,SemiAnalysis 再次提出了一个与众不同的观点。尽管市场过度强调了云危机的主题,但我们预测 AWS 将迎来 AI 的复兴。我们在一个月前向我们的核心研究订阅者阐述了这一观点,预计到 2025 年底,其年增长率将超过 20%。

亚马逊的救星有一个名字:Anthropic。这家初创公司在 2025 年的生成式 AI 市场中表现突出,截至今年,其收入增长了五倍,达到 50 亿美元的年度化水平。

来源:The Information,路透社,彭博社,SemiAnalysis 核心研究
为了保持这种趋势,Anthropic 正在大力押注规模法则。虽然 Dario 的初创公司没有像 OpenAI、xAI 和Meta 超级智能那样吸引更多的头条新闻,但它并不羞于投资。AWS 已经为其主要客户建设了超过一吉瓦的数据中心容量,并且这些数据中心正处于最后阶段的建设中。AWS 正以历史上从未有过的速度建设数据中心。而且,未来还有更多计划。

为了通过 AI 实验室按云服务提供商细分来理解和预测 GPU/XPU 功率容量,我们依赖于我们的专有 数据中心行业模型,该模型基于实时卫星图像。该模型被所有超大规模企业、AI 实验室以及全球最大的投资者所信任,它为 OpenAI、Anthropic、xAI、Meta 超级智能、Google DeepMind 等提供每季度逐个建筑的数据中心预测。联系我们以获取更多信息。
Trainium 与 GPU
尽管亚马逊的 AI 数据中心在规模和速度上令人印象深刻,但单个建筑的设计并不出众。高度优化用于空气冷却,这种蓝图与五年前的传统 AWS 云数据中心相同。
使这些设施与众不同的是它们内部:它们将拥有世界上最大的非英伟达 AI 芯片集群,最大的园区中几乎有 一百万个 Trainium2。要全面了解 Trainium2 系统,请阅读我们 2024 年 12 月的技术深度解析文章 《亚马逊的 AI 自给自足:Trainium2 架构与网络》。
Trainium2 在许多方面落后于英伟达的系统,但它对于 AWS/Anthropic 的多吉瓦交易 至关重要。其每 TCO 的内存带宽优势完美契合了 Anthropic 的 激进强化学习路线图。Dario Amodei 的初创公司在这设计过程中发挥了重要作用,其对 Trainium 路线图的影响也越来越大。
简而言之:Trainium2 正朝着一个 Anthropic 定制硅计划 发展。这将使 Anthropic 成为,与 Google DeepMind 一起,唯一受益于 紧密硬件-软件协同设计 的 AI 实验室之一。

来源:AI 云 TCO 模型
本报告将深入探讨亚马逊 AI 复兴的所有方面:Anthropic 合作伙伴关系、数据中心和 Trainium。在报告的结尾,我们将对 Anthropic、AWS Bedrock 和内部模型提供长期展望,并解释为什么一切并非都是一帆风顺的。
首先,回顾一下为什么 AWS 在通用 AI 时代表现不佳的原因。
AWS 通用 AI 表现不佳
要理解亚马逊在通用 AI 时代的不佳表现,我们可以分析 GPU/XPU 云市场成功的驱动因素。最简单地说,我们看到 GPU/XPU 容量有两个主要客户群体:
- 批发裸机用户:大型客户如 OpenAI、Anthropic、字节跳动和其他超大规模企业。
- 管理式 SLURM/Kubernetes:较小的客户,例如初创公司、研究机构和企业试点项目。
云危机和 ClusterMAX 表现不佳
在第二类中,我们的 ClusterMax AI 云评级 是比较相对优缺点的最佳方式。铂金和金牌评级的 AI 云比其他云更受欢迎,并且具有高于平均水平的价格能力。因此,CoreWeave、甲骨文、Nebius、Crusoe 和 Azure 在多租户 GPU 集群市场上表现出色——这些集群需要高性能和高级软件层。

来源:SemiAnalysis ClusterMAX GPU 云评级
正如两年前所预测的那样 《亚马逊的云危机:AWS 将如何应对》,亚马逊表现不佳的关键在于使用了定制的网络结构 EFA。AWS 在前端网络上的 ENA 成功尚未转化为后端的 EFA。EFA 在性能上仍然落后于其他网络选项:NVIDIA 的 InfiniBand 和 Spectrum-X,以及来自 Cisco、Arista 和 Juniper 的 RoCEv2 选项。原始性能并不是唯一的衡量标准,EFA 的用户体验也不如 InfiniBand 和 RoCEv2。不过,随着 Amazon 最新的 EFAv4 在实际消息大小下的性能有所提升,尽管仍落后于竞争对手。
亚马逊的定制网络还由于 Nvidia 系统的定制需求而 减少了上市时间。其他项目,如先进的被动和主动自动化每周健康检查策略,也没有金牌和铂金评级的云那么稳健。
我们即将推出的 ClusterMAXv2 评级将根据我们的专有测试对所有主要云供应商进行更新。敬请关注!
寻找锚定客户
更为重要的因素是AWS的XPU业务增长能够吸引主要客户——这一波GenAI需求中的市场推动者。规模、上市时间、深度合作以及定价是赢得这些账户的关键,比先进的软件层更为重要。
没有哪家公司能比微软更好地说明这一点。Azure在同行中的AI表现完全得益于其与OpenAI的合作。截至2025年第二季度(2025年6月),所有超过100亿美元的云支出都由Azure承担。

亚马逊很早就意识到需要一个主要客户,并于2023年9月投资了12.5亿美元(可扩展至40亿美元)给Anthropic公司《亚马逊与Anthropic:毒药还是帝国?》。该合作关系在2024年3月进一步扩大,Anthropic承诺使用Tranium和Inferentia芯片《亚马逊与Anthropic的AI投资》。2024年11月,亚马逊再次向Anthropic投资了40亿美元《亚马逊对Anthropic追加40亿美元投资》,后者将AWS指定为其主要的LLM训练合作伙伴《亚马逊对Anthropic追加40亿美元投资》。
Anthropic表现突出,AWS表现不佳?
亚马逊的押注是正确的。Anthropic在2025年的GenAI市场上表现突出,收入从10亿美元飙升至50亿美元。在这种情况下,AWS的表现不佳让投资者感到沮丧,但他们误解了Anthropic在训练和推理上的支出构成。

有两大原因解释了为什么亚马逊尚未真正从中受益:
- 截至2025年第二季度,Anthropic的云支出不到OpenAI的两倍。
- 大量Anthropic的支出流向了Google Cloud——Anthropic在2022年底获得的一轮3亿美元的投资之一,也是Anthropic在2023年和2024年的首选云合作伙伴,在与AWS扩大合作之前。

Anthropic与AWS多吉瓦级AI训练基础设施
特别是,我们认为Anthropic的快速增长的推理需求主要由Google Cloud提供服务。拥有世界上最好的推理系统(TPU)是一个关键的竞争优势。
AWS基础设施建设的目标是争取这部分市场,并专注于训练。虽然Anthropic不像OpenAI、xAI和Meta那样经常成为头条新闻,但它全身心投入AGI竞赛,并且不会在训练支出上吝啬。Anthropic领导层坚信《RL的规模法则》。
他们的信念将在今年实现。我们下面展示了三个AWS校园,它们正处于建设的最后阶段,拥有超过1.3吉瓦的IT容量,专门用于满足Anthropic的训练需求。建设速度令人印象深刻。

尽管这些数据中心看起来是从天空中建造的,但我们认为它们目前还没有产生有意义的收入。Trainium在组装阶段遇到了一些产量问题——对于新系统来说相当常见。我们认为这三个大型AWS校园将在2025年底显著贡献AWS的营收,并使增长率超过20%的年同比增长率。

源:SemiAnalysis 核心研究 - _核心研究 是我们受全球大多数最大对冲基金和投资者信赖的机构研究服务。联系我们 获取有关人工智能硬件、软件和基础设施的行业最详细见解。_
Anthropic 并没有止步于此。其在 1830 亿美元估值下的约 130 亿美元融资轮将提供资金以签署更多与 AWS、Google 及其他公司的交易。AWS 也没有坐以待毙——他们已经开始建设即将投入使用的 GW 级数据中心,以抓住这一增长机会。

正如之前所解释的,这些数据中心将主要配备 AWS 的定制芯片 Trainium。鉴于规模之大,我们不能低估 Anthropic 的赌注有多大。他们不仅承诺投入数千亿美元,而且是在一个很大程度上未经验证的芯片上!
让我们通过深入分析 Trainium 的总拥有成本(TCO)和路线图来尝试理解他们的赌注。
Trainium2 总拥有成本分析——Anthropic 大胆押注可能如何回报
Trainium2 供应链信号目前非常强劲。我们的行业领先 AI 加速器模型 跟踪了封装出货量和系统/机架出货量,自今年年初以来大幅增加。它提供了涵盖 Trainium2 和 Trainium3 产品系列的 10 多个 SKU 的季度出货量预测,并指出了从特定 SKU 中受益最大的供应商。[联系我们获取更多信息](https://semianalysis.com/2025/09/03/amazons-ai-resurgence-aws-anthropics-multi-gigawatt-trainium-expansion/Sales@SemiAnalysis.com)。

请注意,这是芯片生产,机架生产滞后,但我们也在跟踪它。
与 Nvidia 和 Google 的 TPU 竞争当然不是小事情。虽然 Google 正在推出其第七代 TPU,Ironwood,但 Trainium2 仅是亚马逊第三代 AI 加速器。
芯片规格:Trainium2 在各方面均落后,但……
简单查看芯片规格显示 Trainium 相对于 Nvidia 明显落后:
- Nvidia 的 GB200 在 FP16 FLOPs 方面有 3.85 倍的优势,每芯片 2500 TFLOP/s 对比 Trainium2 的 667 TFLOP/s。请注意,规格表上的数字高于实际可实现的 FLOPs。
- 在 内存带宽方面,差距缩小到 2.75 倍,每 GPU 8000GB/s 对比每 Trainium2 2900GB/s。

来源:Amazon, SemiAnalysis
评估扩展网络带宽是另一个关键项目。我们多次解释过 扩展网络带宽对推理模型推理的重要性。我们对强化学习的深入探讨突出了 RL 与推理工作负载的相似性,使得内存带宽成为训练后扩展的关键因素。
- Nvidia 的 GB200 NVL72 在世界规模下提供了总计 576TB/s 的内存带宽。
- 这相当于 3.1 倍的优势相对于 Trainium2 的(Teton2-PD-Ultra-3L SKU)186 TB/s —— 需要注意的是,这在不同 SKU 间有所变化。
尽管 Trainium 在材料上明显落后,但在考虑总拥有成本(TCO)后,情况发生了变化。
Trainium 的内存带宽在 TCO 上的优势
在下面的表格中,我们将 TCO 纳入比较。虽然 Nvidia 在每有效训练 PFLOP 的 TCO 方面具有显著优势,但 Trainium2 在每百万 Token 和每 TB/s 内存带宽的 TCO 方面极具竞争力。

我们没有看到英伟达即将推出的 VR200 NVL144 对比 AWS 的 Trainium3 会改变整体情况。需要明确的是,TCO 涉及许多其他变动因素。AWS 有其他系统级架构部署,更适合某些使用场景。未来,英伟达的 Kyber 架构将展示全球最先进的扩展网络架构。
为了全面了解 50 多个英伟达 SKU 的 TCO,以及与所有 AMD、Trainium 和 TPU SKU 的详细 TCO 对比,请查看我们的 AI Cloud TCO 模型。最大的超大规模企业、新云企业和他们的金融赞助商依赖于我们的模型来决定投资时机。
Anthropic 倾向于硬件-软件协同设计
Trainium2 在 TCO 方面的内存带宽优势是理解 Anthropic 选择的关键。虽然英伟达的芯片和系统在大多数方面更优,但 Trainium2 完美契合 Anthropic 的路线图。他们是 扩展训练后技术(如强化学习)方面最激进的人工智能实验室。他们的路线图更多地受到内存带宽限制,而不是浮点运算能力(FLOPs)限制。我们最近的 HBM 报告深入探讨了哪些人工智能工作负载倾向于受内存限制。
Anthropic 的增长不仅使其成为唯一一个大型外部 Trainium2 用户,而且其需求量也将超过亚马逊内部的需求(例如 Bedrock、Alexa 等)。他们现在积极参与所有 Trainium 设计决策,并且实质上将亚马逊的 Annapurna Labs 作为定制硅合作伙伴!这使得 Anthropic 成为唯一一家受益于紧密硬件-软件协同设计的人工智能实验室,与谷歌 DeepMind 相似。
Trainium 的路线图:加倍投入系统
亚马逊正在为其主要客户推出一种新的系统级架构。目前,AWS 部署的两个系统是 Teton PD 和 Teton PD Ultra。明年,新的 Teton PDS 和 Teton Max 将大量出货。我们的 AI 加速器模型提供了季度性的具体出货量和 SKU 分解。

来源:SemiAnalysis 加速器行业模型,AWS
关键区别在于引入了一种名为 NeuronLinkv3 的全互连扩展网络。因此,Trainium 的架构正朝着英伟达的 NVL72 NVLink 迈进。
四个 NeuronLinkv3 交换托盘将放置在机架中间,上方和下方各有 16 个计算托盘均匀分布。某些供应链供应商将从中受益,正如两个月前在 Core Research 中提到的那样——我们的机构研究服务被世界上最大的对冲基金所信赖。该供应商自我们的报告发布以来上涨了 73%。我们认为 PDS 的引入是 Trainium 赶上英伟达的一个中间步骤。我们还相信 Anthropic 在这个新系统级架构的推出中发挥了重要作用。

来源:SemiAnalysis 加速器行业模型,AWS
Anthropic 在设计决策中的增加参与度预示着未来出货量的良好前景。但他们也没有放弃 TPU 和英伟达 GPU。我们的 加速器模型 预测了亚马逊和谷歌云的芯片采购按精确 SKU 分解,而我们的 数据中心模型 则帮助理解支持 Anthropic 扩张的数据中心和云合作伙伴。Anthropic 在 2026 年的 TPU 扩张非常巨大,并且他们的协议有一些独特之处,这是我们已经讨论了一个多月的内容。
现在让我们从长远角度评估 AWS 未来的可能情况。付费用户可以访问以下内容:
- Amazon 的关键客户 Anthropic 的前景。
- Amazon 的生成式人工智能业务超出 Anthropic 范围:Bedrock 和内部 LLM 努力。
- 2026 年和 2027 年的 Trainium 扩张,潜在的新外部客户,以及它如何在未来几年影响 Amazon 的财务状况。
本篇文章仅限付费订阅者阅读
上一节 下一节
© 2026 Dylan Patel · 隐私政策 ∙ 条款 ∙ 数据收集声明
Substack 是优质文化的大本营