推断模式的转变
TL;DR · AI 摘要
AI芯片需求激增,Cerebras上调IPO价格范围至$150-$160,GPU主导AI计算但未来将趋于异构化。
核心要点
- Cerebras IPO价格从$115-$125上调至$150-$160,股票数量增至3000万。
- Nvidia通过HBM和网络技术主导AI训练和推理市场。
- 未来AI计算将从单一GPU转向异构架构以满足不同需求。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- AI芯片与计算
- Cerebras IPO
- 价格上调至$150-$160
- 需求强劲
- GPU主导
- Nvidia HBM
- CUDA生态系统
- 推理挑战
- KV缓存
- 模型权重
金句 / Highlights
值得收藏与分享的关键句。
Cerebras Systems is set to raise the size and price of its initial public offering as soon as Monday.
Nvidia has been the leader in both problem spaces, first by securing HBM ahead of the rest of the industry, and second thanks to its investments in networking.
For every token generated, two distinct memory pools must be read: the KV cache and the model weights.
标题: 推理模式的转变
URL 来源: https://stratechery.com/2026/the-inference-shift/
发布日期: 2026-05-11T10:00:00+00:00
Markdown 内容: 听这篇文章:
如果你正在寻找一个理想的上市时间,那么成为一家芯片公司在2026年5月上市几乎是不可能错过的机会。路透社周末报道:
两位知情人士告诉路透社,Cerebras Systems计划最早于周一扩大其首次公开募股的规模和价格,因为对其人工智能芯片制造商股票的需求持续攀升。消息人士称,该公司正在考虑新的IPO价格区间为每股150美元至160美元,高于之前的115美元至125美元,并且将发行的股票数量从2800万股增加到3000万股。由于这些信息尚未公开,消息人士要求匿名。
当前半导体股票持续上涨的根本驱动力当然是人工智能,特别是意识到代理需要大量计算这一事实。然而,Cerebras所代表的是更广泛的趋势:虽然人工智能的计算故事主要围绕着GPU,尤其是Nvidia的GPU,但未来将会越来越呈现出异构性。
GPU时代
图形处理单元如何成为人工智能中心的故事是一个广为人知的历程,但简而言之:
- 就像在电脑屏幕上绘制像素是一个并行过程,这意味着处理器的数量与图形速度直接相关一样,与人工智能相关的计算也是一个并行过程,这意味着处理器的数量与计算速度直接相关。
- Nvidia通过使其图形处理器可编程,并创建了一个名为CUDA的整个软件生态系统来使这种编程变得容易,从而实现了双重用途。
- 图形和人工智能之间的主要区别在于解决问题的规模——模型比视频游戏纹理大得多,这导致了每块GPU上高带宽内存(HBM)的显著扩展,并在芯片间网络创新方面取得了巨大进展,以允许多个芯片作为一个可寻址系统协同工作。Nvidia在这两个领域都处于领先地位。
GPU的主要用例是训练,这一点特别强调了第三个要点。尽管每个训练步骤内的计算是高度并行的,但步骤本身是串行的:每个GPU必须在下一步开始之前将其结果与其他所有GPU共享。这就是为什么万亿参数模型需要适应成千上万的GPU,这些GPU可以作为一个系统协同工作。Nvidia在这两个问题空间中都占据主导地位,首先是通过在行业其他部分之前获得HBM,其次是通过其在联网方面的投资。
当然,训练并不是唯一的AI工作负载:另一种是推理。推理有三个主要部分:
- 预填充将LLM所需的一切编码为一种可理解的状态;这是高度并行化的,计算很重要。
- 解码的第一部分涉及读取KV缓存——存储上下文,包括预填充步骤的输出——以进行注意力计算。这是一个带宽重要的串行步骤,但内存需求是可变的并且越来越大。
- 解码的第二部分是对模型权重进行前馈计算;这也是一个带宽重要的串行步骤,内存需求由模型的大小决定。
解码的这两个步骤交替进行,适用于模型的每一层(它们是交错的,而不是按顺序排列),也就是说,解码是串行的并且受内存带宽限制。对于每个生成的标记,必须读取两个不同的内存池:KV缓存,它存储上下文并随着每个标记的增长而增长,以及模型权重本身。为了产生一个单一的输出标记,这两个内存池都必须完全读取。
GPU满足了所有这三个需求:预填充所需的高性能计算、KV缓存和模型权重的丰富HBM,以及在单个GPU不足以时跨多个芯片池化内存的芯片间联网。换句话说,用于训练的东西同样适用于推理——看看SpaceX与Anthropic达成的交易。来自Anthropic的博客:
我们已经与SpaceX签署了一项协议,使用他们Colossus 1数据中心的所有计算能力。这让我们在一个月内获得了超过300兆瓦的新容量(超过220,000个NVIDIA GPU)。这笔额外的容量将直接提高Claude Pro和Claude Max订阅用户的容量。
SpaceX保留了Colossus 2——可能用于未来模型的训练和现有模型的推理——并且能够在同一数据中心同时进行这两项操作,正是因为xAI的模型没有得到太多使用;更具体地说,他们能够在同一数据中心同时进行这两项操作,因为训练和推理都可以在GPU上完成。事实上,Anthropic在Colossus 1承包的GPU最初也是用于训练的;GPU如此灵活的事实是一个巨大的优势。
理解Cerebras
Cerebras制造了一些完全不同的东西。虽然硅晶圆的直径为300毫米,但“光罩限制”——即光刻工具可以在该晶圆上曝光的最大面积——约为26毫米x 33毫米。这是芯片的有效尺寸极限;超出这个范围意味着需要在两个单独的芯片之间通过芯片间中介连接,这正是Nvidia在B200上所做的。另一方面,Cerebras发明了一种方法,在所谓的“划线”区域——即光罩曝光之间的边界——铺设线路,使整个晶圆成为一个单一的芯片,无需相对缓慢的芯片间连接。
最终结果是一款计算能力强大且拥有大量 SRAM 的芯片,其访问速度极快。用数字来表示,WSE-3(Cerebras 的最新芯片)具有 44GB 的片上 SRAM 和 21 PB/s 的带宽;而 H100 具有 80GB 的 HBM 和 3.35 TB/s 的带宽。换句话说,WSE-3 的内存容量略高于 H100 的一半,但内存带宽是 H100 的 6,000 倍。
将 WSE-3 与 H100 进行比较的原因在于,H100 是最常用于推理的芯片——显然,这也是 Cerebras 最擅长的领域。你可以使用 Cerebras 芯片进行训练,但其芯片间网络的故事并不太吸引人,也就是说,所有那些计算能力和片上内存大部分时间都只是闲置着;相比之下,以比 GPU 快得多的速度获取一连串标记的想法则更有趣。
不过需要注意的是,训练方面的限制也可能适用于推理:只要所有数据都能容纳在片上内存中,Cerebras 的速度体验堪称令人难以置信;一旦需要更多内存,无论是为了更大的模型还是更可能的更大键值缓存,那么 Cerebras 就显得不太合理了,尤其是考虑到其价格。这种整片晶圆作为单个芯片的技术意味着高良率是一个巨大的挑战,这大大推高了成本。
同时,我认为 Cerebras 风格的芯片会有市场:目前该公司正在强调速度在编程中的有用性——推理意味着大量的标记,因此大幅提高每秒生成标记的数量等于更快的思考——但我认为这只是暂时的应用场景,我会稍后解释原因。真正重要的是人类等待答案的时间,随着像 AI 可穿戴设备这样的产品变得越来越普及,交互的速度,特别是语音交互——这将取决于标记生成速度——将对用户体验产生实质性影响。
主动推理
我之前已经在《超越泡沫的代理》(Agents Over Bubbles)中提到过,在 LLM 时代我们经历了三个转折点:
- ChatGPT 展示了标记预测的实用性。
- o1 引入了推理的概念,更多的标记意味着更好的答案。
- Opus 4.5 和 Claude Code 引入了第一个可用的代理,它们可以实际完成任务,结合了推理模型和工具、验证工作等。
所有这些都属于“推理”的范畴,但我认为会越来越明显的是,“提供答案”(我称之为“回答推理”)和“执行任务”(我称之为“主动推理”)之间存在差异。Cerebras 的目标市场是“回答推理”;从长远来看,我认为“主动推理”的架构不仅与 Cerebras 的方法不同,也与 GPU 的方法不同。
我上面提到过,快速推理编程只是一个临时应用场景。具体来说,使用 LLM 编程需要人在循环中。是人类定义了要编码的内容,检查工作,提交拉取请求等;然而,不难想象未来这一切都将完全由机器完成。这将适用于主动工作:代理的真正力量不在于它们为人类工作,而在于它们可以在完全没有人类干预的情况下完成工作。
由此延伸,这意味着解决“主动推理”的最佳方法很可能与“回答推理”大不相同。对于“回答推理”,最重要的因素是标记速度;而对于“主动推理”,最重要的是内存。“代理”需要上下文、状态和历史记录。其中一部分将作为活动的键值缓存存在;另一部分将存在于主机内存或 SSD 中;大部分将存储在数据库、日志、嵌入和对象存储中。关键点在于,“主动推理”将不再仅仅是 GPU 回答问题,而是围绕模型构建的内存层次结构。
至关重要的是,这种针对主动推理的特定内存层次结构暗示了一种必要的权衡:速度换容量。不过,这里有一个问题:如果没有人在循环中,较低的速度并不是一个重要的考虑因素。如果代理正在等待夜间运行的任务,它不知道或不关心用户体验的影响;最重要的是能够完成任务,如果全新的内存方法能够实现这一点,那么延迟是可以接受的。
与此同时,如果延迟是可以接受的,那么对纯计算能力和高带宽内存的关注似乎就显得不合时宜了:如果延迟不是首要考虑因素,那么较慢且便宜的内存——比如传统的 DRAM——就更有意义了。而且,如果整个系统主要是在等待内存,那么芯片也不需要达到前沿水平的速度。这代表了未来架构的一个深刻转变,但这并不意味着当前架构会消失:
- 训练将继续重要,而英伟达当前的架构,包括高速计算、大量高带宽内存以及高速网络,很可能继续占据主导地位。
- 回答推理将是一个有意义的市场,尽管相对较小,但像Cerebras或Groq这样的芯片所带来的速度(我在这里解释了英伟达如何部署Groq的LPUs)将会非常有用。
- 主动推理将逐渐分解GPU的功能,GPU在预填充过程中会闲置高带宽内存,在解码过程中会闲置计算能力,转而采用越来越复杂的内存层次结构,这种结构以高容量和相对低成本的内存类型为主,同时“足够好”的计算能力即可;事实上,对于工具使用等任务而言,CPU的速度比GPU的速度更重要。
与此同时,这些类别在规模和重要性上不会相等。具体来说,主动推理将是最大的市场,因为这个市场不会受到人类或时间的限制。如今的代理程序更像是高级回答推理;在未来,真正的主动推理将是计算机根据其他计算机的指令完成的工作,市场规模与人类无关,而是与计算能力成正比。
主动推理对计算的影响
到目前为止,“随着计算能力扩展”的说法隐含着对英伟达的乐观态度。然而,英伟达迄今为止的相对优势在很大程度上是延迟的结果:英伟达的芯片具有快速计算能力,但要让这些计算保持忙碌状态,则需要对不断扩大的HBM内存和网络进行巨额投资。然而,如果延迟不是关键约束条件,那么英伟达的方法似乎就不值得支付溢价了。
英伟达确实意识到了这一转变:该公司推出了一个名为Dynamo的推理框架,帮助分解推理的不同部分,并且正在推出独立的内存和CPU机架产品,以便启用越来越大的KV缓存和更快的工具使用,从而更好地利用其昂贵的GPU。然而,最终很容易看出,对于并非完全依赖GPU的主动推理而言,成本和简单性对超大规模数据中心来说将变得越来越有吸引力。
与此同时,尽管中国缺乏最前沿的计算能力,但它拥有实现主动推理所需的一切:足够快(但不是最前沿)的GPU、足够快(但不是最前沿)的CPU、DRAM、硬盘等。当然,挑战在于训练所需的计算能力;此外,回答推理可能在国家安全方面更为重要,至少在军事应用方面是如此。
另一个有趣的方面是空间:较慢的芯片实际上使空间数据中心更具可行性。首先,如果可以卸载内存,芯片可以变得更简单并且运行得更凉爽。其次,由于较旧节点在物理上更大,它们更能抵御太空辐射。第三,较旧节点消耗的电力更少,这意味着通过辐射散发的热量也会减少。第四,不在最前沿意味着更高的可靠性,考虑到卫星不可修复这一点尤为重要。
英伟达首席执行官黄仁勋经常说“摩尔定律已死”;他的意思是,计算速度提升的未来将取决于系统创新,而这正是英伟达所做的。然而,也许最具深远意义的推论是,那些无需人类干预就能行动的代理程序,将意味着摩尔定律不再重要,我们获得更多计算能力的方式是意识到我们现有的计算能力已经足够好了。