T
traeai
登录
返回首页
AI Musings by Mu

智能的成本攀升(第一部分)

8.5Score
智能的成本攀升(第一部分)

TL;DR · AI 摘要

AI成本正从实验阶段转向基础设施级支出,企业需应对Tokenmaxxing现象及Agentic工作流带来的隐性算力倍增。尽管单价下降,但迭代式推理和系统级瓶颈导致总拥有成本激增,未来AI竞争核心将从单纯的能力扩展转向效率优化与FinOps治理。

核心要点

  • Uber单季度耗尽年度Token预算,某企业因无限制许可单月Claude支出达5亿美元,Tokenmaxxing成为新风险。
  • Agentic工作流将传统单次操作变为生成-评估循环,导致Token消耗量增加100至1000倍,抵消了单价下降红利。
  • AI瓶颈已从单一GPU芯片转移至内存、网络及电力等系统级链条,推理成本因自我改进循环被纳入训练过程而攀升。

结构提纲

按章节快速跳转。

  1. §Tokenmaxxing现象

    企业在AI采用初期普遍存在Tokenmaxxing行为,即把Token消耗量误当作生产力指标,导致预算在缺乏管控的情况下迅速失控。

  2. AI当前正处于从无序实验向效率优化转型的关键节点,类似互联网和云计算早期经历过的从粗放扩张到精细化运营的历史规律。

  3. 编程Agent等工具采用迭代式工作流,将线性请求转化为多步循环,使单次任务Token消耗量呈百倍千倍增长,成为需求爆发的隐形乘数。

  4. 推理不再仅用于服务用户,而是通过递归自我改进深度融入训练过程,这种智能生成智能的循环显著推高了底层计算成本。

  5. AI供给端约束已从单一GPU芯片扩展至内存、网络、散热及电力设施等全链路系统级瓶颈,限制了整体吞吐能力并抬高了部署门槛。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • AI Cost Dynamics
    • Demand Drivers
      • Tokenmaxxing Behavior
      • Agentic Iterative Loops
      • Inference-for-Training
    • Supply Constraints
      • System-Level Bottlenecks
      • Infrastructure Complexity
    • Strategic Shift
      • From Experiment to FinOps
      • Usage-Based Pricing Models

金句 / Highlights

值得收藏与分享的关键句。

  • Uber单季度耗尽年度Token预算;另一家公司因无限制许可,据报单月在Claude AI上花费5亿美元。

    第3-4段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 如果每个智能体工作流通过迭代生成与评估循环消耗100倍或1000倍的Token,那么更便宜的单价也毫无意义。

    第14段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 瓶颈已从芯片级转移到系统级:内存、网络、散热和变压器已成为当前的硬性约束。

    第17段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • AI在概念验证阶段很便宜,在采用阶段变贵,当它成为基础设施时则更加昂贵。

    第9段

    ⬇︎ 下载 PNG𝕏 分享到 X
#AI基础设施#FinOps#智能体工作流#Token经济学#成本优化
打开原文

标题:智能的成本日益攀升(第一部分)

URL 来源:https://kelvinmu.substack.com/p/the-growing-cost-of-intelligence

发布时间:2026-06-04T16:33:45+00:00

Markdown 内容: 这是关于 AI 成本上升的两部分系列文章的第一部分。第一部分探讨了成本为何上升、为何重要以及企业应如何应对。第二部分将探讨这对投资者意味着什么。

AI 本应让智能变得更廉价。

然而现实却是,它正成为损益表(P&L)中增长最快的支出项目之一。

Uber 为例。该公司仅用一个季度就耗尽了全年的 Token 预算(目前不得不将 Token 支出上限设定为每月 1,500 美元)。据报道,另一家公司由于未对员工的 Claude AI 许可证设置使用限制,单月支出竟高达 5 亿美元。

在硅谷,人们创造了一个新词来形容这种行为:“Tokenmaxxing”(Token 狂热)

它指的是极力最大化 AI Token 消耗的做法,往往将 Token 消费量本身视为生产力的代名词。在某些公司,AI 使用量甚至被纳入排行榜,以此证明谁才是最“AI 原生”的员工。

Tokenmaxxing 听起来像个网络迷因,但它恰恰反映了我们从历史中熟知的规律。当一项新技术突然拓展了可能性的边界时,人们的第一反应几乎从来不是优化,而是实验。团队会尝试一切手段,采用过程变得不加甄别且毫无节制。AI 被嵌入到每一个可能的工作流中,绝对使用量成了进步的象征。只有到了后期,优化才会被提上日程。

我们以前也见过类似的情形——互联网和移动端让分发成本大幅降低,但企业后来不得不重新学习用户留存和客户获取成本(CAC)的管控纪律;云计算让算力配置变得轻而易举,但企业随后需要引入 FinOps 来控制开支。

如今,AI 也正在步入其自身的优化阶段。

我们的核心观点是:未来几年的 AI 发展将越来越由优化和效率主导。

原因很简单:AI 在概念验证(PoC)阶段很便宜,在规模化应用阶段变贵,而当它成为基础设施时则更加昂贵。随着 AI 在企业内部从实验性项目转变为关键基础设施,其成本问题已无法再被忽视。

这一转变不仅会影响企业采用 AI 的方式,还将决定哪些类型的 AI 初创公司能够获得创立与融资机会,以及 AI 研究人员会将精力投向何处。

乍看之下,这似乎有些反直觉。

单位 Token 成本已大幅下降。模型提供商的效率不断提升。开源模型日益精进。市场竞争也在加剧。然而,AI 的总成本却在爆炸式增长。

AI 公司已经开始适应这一现实。Anthropic 就是一个很好的例子。该公司最近调整了 Claude Enterprise 的计费模式,在月度席位费的基础上增加了基于用量的计费方式。Salesforce 和 ServiceNow 也已转向对其 AI 产品采用基于消费量的定价策略。

这不仅仅是一种新的定价策略,更是市场需求远超供给的直接反映。

AI 工作流不再是线性的,其设计本质上是迭代式的。

这一点在编程 Agent 中体现得最为明显。像 Claude Code 和 Codex 这样的工具并非一次性系统。开发者不会只发出一个请求然后就结束操作。工作流变成了一个循环:生成、观察、评估、学习,然后重复。

在传统软件中原本只需一次操作的任务,在 Agentic 工作流中变成了多次操作。

这就是隐藏在 AI 需求背后的乘数效应。

随着智能水平的提升,我们对它的要求也水涨船高。我们注入更多上下文,引入更多步骤。系统能力越强,计算密集度也就越高。如果每个工作流的 Token 消耗量激增 100 倍甚至 1000 倍,那么即便单价再低也无济于事。

同样的动态也出现在训练和后训练阶段。推理不再仅仅是向用户提供模型服务的一部分,它正日益成为训练过程本身的一环。模型生成输出、评估结果,并通过反复尝试实现递归式改进。换言之,通往更高智能的道路,首先需要生成更多的智能。这种自我强化的循环既是 AI 强大能力的源泉,也是其高昂成本的根源。

Image 1

来源:高盛(Goldman Sachs

在供给侧,瓶颈已从芯片层面转移到了系统层面。

制约因素不再仅仅是 GPU,还包括围绕芯片的一切配套设施:内存、网络设备、冷却系统、数据中心设备、电力变压器,以及将芯片转化为 Token 所需的各类物理材料。

问题已不再是单一瓶颈,而是一连串的瓶颈,每一个环节的延误都会加剧下一个环节的滞后。

Image 2

劳动力也正成为瓶颈之一。根本没有足够的电工和技术工人来建设和维护 AI 当前所需的庞大物理基础设施。

最后,还有电力供应本身的问题。

数据中心正成为电力需求增长的最大新来源之一。然而,过去 15 年来美国的发电量基本持平,历届政府能源政策的反复更迭进一步加剧了不确定性。即便新增电力能够并网,现有电网也无法承受如此迅猛的负载增长。

地方层面的阻力也在不断增加。全美已有 14 个州正在考虑禁止或暂停新建数据中心。受上述因素影响,预计美国今年计划建设的数据中心将有_一半_面临延期。

Image 3

来源:Datacentertracker.org

这正是当前 AI 发展背后的核心矛盾:

需求呈软件级指数扩张,供给却受限于物理基础设施的线性增长。

模型可以在数天内完成迭代,全新的 AI 工作流能够在一夜之间设计成型,智能体(Agent)更可在数秒内生成成千上万个推理步骤。

但供给侧的节奏截然不同。电气设备的采购周期长达数月;数据中心的融资、建设、供电及并网往往耗时数年;立法与审批流程则更为漫长。这一切都无法以软件的速度进行扩展。

这种供需错配决定了 AI 成本在中短期内仍将居高不下,也意味着未来几年成本优化将变得愈发关键。当基础设施无法跟上软件的演进速度时,优化便成为维持规模扩张的唯一途径。

Image 4

_物理基础设施的扩展速度远不及软件_

过去三年间,AI 支出大多被归入创新预算范畴。

零星的 POC(概念验证)项目 scattered 各处,由于属于实验性投入,这类开支很容易获得批准。

但这一局面正在发生改变。

AI 支出正从一次性的创新预算转入常规成本中心,逐渐成为企业常态化运营模式的一部分。而一旦某项投入变为常态,其 ROI(投资回报率)就必须更加清晰可量化。

Image 5

_来源:A16z_

成本问题日益凸显还有第二个原因:AI 开始替代人力,但与人力相比,AI 的性能更易量化和对标。

具体而言:

在传统模式下,人力成本往往模糊且主观。若一家公司的人力开支高于另一家,总能找到诸多理由来解释差异:人才素质更高、经验更丰富、地域与生活成本不同等等。此外,员工还具备创造力、沟通能力和团队协作等难以量化的特质。因此,个人价值几何、薪酬多少,往往带有极强的主观性。

换言之,企业的低效在人力成本中有着充足的藏身之所。

但在 AI 时代,低效无处遁形。

如果两家公司使用相似的智能体自动化类似的工作流,其中一家却消耗了两倍的 Token 才达成相同结果,这种差距便很难再用客观因素搪塞过去。每张工单的成本、每行代码的成本、每份合同审核的成本——这些指标将以传统人力生产率难以企及的透明度呈现出来。“单位智能成本”也变得极易横向比较。

Image 6

_AI 的低效更难被掩盖_

这标志着 AI 应用即将迈入一个更为严谨的新阶段。董事会将越来越多地要求管理层证明 AI 投资的 ROI,并将自身支出与同行进行对标。

随着智能成本的可度量性大幅提升,企业 AI 应用的下一阶段必将更加规范有序。

成本管理的首要问题是明确 AI 的权责归属。

应由 CIO、CTO、CFO、CDO 负责,还是设立全新的首席 AI 官(Chief AI Officer)?AI 决策权应集中统管,还是下放至各业务单元?

乍看之下,集中化管理优势明显。统一的 AI 职能部门可以标准化模型接入、统筹供应商谈判、执行安全策略、监控使用情况,并避免各团队重复造轮子。这不仅能减少冗余、强化治理、提升采购议价能力,还能让管理层对 AI 资金的流向一目了然。

长远来看,集中化理应降低整体成本。

但集中化也存在隐性代价:与实际业务流程脱节。

集中式团队很少能对每个业务流程有足够深入的理解,从而自内而外地对其进行重新设计。最高价值的 AI 用例往往最贴近实际工作场景:工程、客户支持、销售运营、法务等。如果每个用例都必须排队等待中央团队处理,实验步伐就会放缓。企业甚至还没发现 AI 在何处创造价值,就可能陷入单纯追求成本优化的误区。

这正是 AI 采用与传统 SaaS 采用截然不同的地方。

在 SaaS 时代,采用往往是自上而下的。如果 CEO 或 CFO 决定公司将使用 Salesforce 作为销售记录系统,那么所有人都被期望学习并采用它。工作流程去适应软件。

而在 AI 时代,情况恰恰相反。软件需要去适应工作流程。

这使得 AI 的采用本质上更加自下而上。营销团队自行选择智能体(Agent)。工程师在 Codex、Claude Code 或 Cursor 之间做出抉择。法务团队可以尝试不同的法律 Copilot。个人用户和团队往往最先感受到生产力的提升,因此他们拥有最强的实验动力。

这意味着相比 SaaS 时代,AI 时代需要更高程度的去中心化。

但去中心化也有其实际代价。每个团队各自采购工具、运行试点项目、选择供应商并构建自己的智能体。使用变得分散,支出出现重复,安全攻击面扩大。管理层对成本、治理和投资回报率(ROI)失去了可见性。

因此,答案既不是完全集中,也不是完全去中心化,而是有治理的去中心化

将受益于规模效应的事务集中化:模型访问、采购、安全、治理、可观测性、成本追踪以及共享基础设施。

将依赖工作流上下文的事务去中心化:用例选择、流程设计以及业务单元内部的日常所有权。

换言之,中央团队负责铺设轨道,业务单元负责决定列车驶向何方。

Image 7

_“有治理的去中心化”_

在具体执行层面,这可能意味着成立一个由高管领导、但由各主要职能部门代表组成的 AI 卓越中心(CoE)。CoE 的职责不应是审批每一个用例,而应是管理共享层,同时赋予业务单元足够的自主权,使其能在自己最熟悉的工作流中快速行动。

这就是企业如何在保持自下而上采用的速度与场景适配性的同时,获得集中化带来的成本纪律的方法。

AI 领域的“购买还是自建”决策应归结为以下三个问题:

  1. 作为一个组织,我们的 AI 化程度如何?
  1. 该工作流对业务有多重要?
  1. 谁能更快地优化成本曲线:我们还是供应商?

首先问自己:我们的 AI 化程度如何?

对于非 AI 原生的公司来说,内部自建的成本可能比表面看起来要高。电子表格上的测算可能显示自建更便宜,但其隐性代价是速度。

如今 AI 发展日新月异,六个月的内部开发周期可能导致产品尚未上线就已过时。等到团队发布产品时,模型格局可能已经改变,智能体框架可能已经成熟,供应商的产品可能已经迭代了一两代。在一个如此快速变化的市场中,自建并不总是更便宜的选择。有时,它只是一种用更慢的速度复刻昨日产品的做法。

因此,对于 AI 化程度不高的公司,默认策略通常应该是先购买——但以能够随时间积累内部能力的方式进行购买。

这意味着选择供应商不仅要看其产品,还要看他们能在多大程度上帮助组织学习。优先选择那些更灵活、能与内部团队紧密合作共同设计工作流、培训内部团队并增强内部团队 AI 能力的供应商。

这也是初创公司能成为极具吸引力合作伙伴的原因之一。大型供应商可能提供更广泛的平台,但小型公司往往更愿意在客户身上投入时间,针对特定工作流进行定制,并传授专有知识。对于试图提升 AI 能力的企业来说,这种学习价值可能与产品本身一样重要。

第二个需要考虑的问题是:该工作流是否是业务的核心。

如果某个工作流并非差异化竞争的关键,购买通常是正确的选择。如果供应商能以更快、更好且成本合理的方式解决非核心功能问题,就没有必要自建。

但如果该工作流是核心业务,答案就会有所不同。

已故的 Tony Hsieh 在其著作 _Delivering Happiness_(中文译名《三双鞋》)中曾提到 Zappos 决定不外包客户支持,尽管外包成本要低得多。他的理由很简单:客户支持不是后台职能,它就是品牌本身。呼叫中心不是一个需要最小化的成本中心——它是公司身份认同的核心。

评估 AI 也应遵循同样的逻辑。如果某项能力是你差异化竞争优势的核心,你可能不希望将其交由第三方供应商管理。购买仍然是一个正确的起点——它能为你带来速度、学习机会和基准产品。但随着时间推移,公司应迅速转向自建,以获得更多的所有权和控制权。

第三个问题是:谁能更快地优化成本曲线——你还是供应商。

购买能带来速度,但也使公司受制于供应商的架构。客户不得不继承供应商的模型选择、产品路线图、基础设施决策以及利润结构。

这在早期或许没问题。但从长远来看,经济效益取决于谁能更快地改进系统。

如果工作流能够从你自己的用户、客户、数据和内部流程中产生有价值的学习反馈,那么你可能处于更有利的位置。每一条反馈都能帮助精简上下文、重新设计工作流本身,并降低成本。

供应商可能拥有覆盖众多客户的更广泛使用场景,从而积累通用经验。但企业自身则掌握着更丰富、更具针对性的场景化学习成果。

因此,真正的问题在于:谁能更快地将反馈转化为更优的成本曲线?如果供应商凭借其规模优势占据学习先机,那么采购可能仍是正确选择。但如果你的自有工作流能够产生提升质量、降低成本所需的反馈闭环,那么自主构建就变得更为重要。

综合来看,这三个问题指向同一个结论:“自研还是采购”并非一成不变的决策,而应被视为一个分阶段演进的路径。

在追求速度时选择采购,在需要掌控力时选择自研。随着时间推移,当你的 AI 能力不断提升、工作流的战略地位日益凸显、且自身的反馈循环开始改变成本曲线时,应持续重新评估这一权衡关系。

企业 AI 的下一阶段竞争,不仅取决于谁采用 AI 最快,更取决于谁管理 AI 最好。

以下是供企业参考的一些战术性建议:

  1. 先建立可见性,再实施管控。

大多数公司目前仍不清楚 AI 支出的具体去向。AI 的使用分散在模型提供商、Copilot 工具、SaaS 供应商、API 调用、内部智能体以及员工个人订阅等多个渠道。在优化任何事项之前,企业首先需要了解哪些团队在使用 AI、应用于哪些工作流,以及每个工作流的实际成本是多少。

但仅有内部可见性还不够全面。随着 AI 逐渐替代人工,企业还需要外部可见性:即其单个工作流的 AI 成本与同行及竞争对手相比处于什么水平。如果两家公司使用类似的智能体完成相似的任务,但其中一家为达成相同结果花费了双倍成本,这种差距就必须立即解决。

正确的衡量指标不是每 token 成本,而是每单位工作成本:例如解决每个工单的成本、每行代码上线的成本、每份合同审核的成本、每次客户互动的成本,或完成每个工作流的成本。

  1. 区分实验流程与生产流程

AI 实验应保持自下而上的模式。每个团队都应有一笔小额专项预算,用于测试工具、尝试新工作流,并探索 AI 的价值创造点。最贴近实际业务的人通常最能识别 AI 的应用机会。

然而,一旦应用超出实验阶段进入正式使用,就应纳入更集中的管理流程。此时,企业需要评估供应商重叠度、安全性、定价、用量限制、集成需求,以及该工作流是否足够重要以纳入长期运营体系。

这种区分至关重要,因为许多 AI 项目在概念验证(POC)阶段看似成本低廉,但在全面投产后却变得昂贵。随着更多用户在全公司范围内推广使用,一个小规模试点很快就会变成一项持续性支出。

归根结底,目标是在集中化管理实现规模化的同时,保留自下而上的创新发现机制。团队应在明确的预算范围内自由实验,但更大范围的部署应设立更高门槛:包括清晰的投资回报率(ROI)、成本控制措施,以及关于采购、自研、整合或终止项目的明确决策。

  1. 重新设计工作流,而非仅仅优化模型调用。

最大的成本节约不会来自让每次提示词调用稍微便宜一点,而是来自对工作流本身的重构。

许多公司的做法是在现有流程上叠加 AI:总结会议纪要、起草邮件、回复客服工单、审核合同等。这虽有帮助,但往往保留了原有的底层复杂性。AI 让现有工作流变快了,但不一定变得更优。

更大的降本机会在于从零开始重新设计工作流。 如果 AI 能在问题演变为工单之前就将其解决,其节省的成本远大于单纯降低工单回复成本。

这与埃隆·马斯克在特斯拉推行的运营理念异曲同工。他的方法论是:首先质疑每一项需求,然后删除不必要的环节或流程,最后才进行自动化。顺序至关重要——自动化应是最后一步,而非第一步。

这一原则同样适用于 AI。许多企业倾向于用 AI 自动化所有现有流程。但如果流程本身是多余的、碎片化的或设计不良的,AI 只会加速资源浪费。最常见的错误之一,就是去自动化一个本该被彻底删除的流程。

  1. 为每个 AI 工作流指定业务和技术负责人

每个投产的 AI 工作流都应同时配备技术负责人和业务负责人。

这一点至关重要,因为 AI 工作流介于软件系统与业务运营之间。它们既不是纯粹需要维护的技术系统,也不是单纯需要重构的业务流程,而是两者的结合体。如果所有权仅归属技术团队,公司可能会只优化模型而未触及实际工作流的改进;若仅归属业务团队,工作流虽可能被广泛采用,却缺乏在可靠性、评估机制、安全性、数据访问权限和成本控制等方面的必要保障。

鉴于 AI 技术迭代极快,这种共同负责制尤为重要。模型会更新、提示词会漂移、数据源会演变、用户会摸索出变通方法,边缘案例也会随时间不断涌现。如果在试点阶段表现良好的工作流,在投产后无人从业务成效和系统稳定性角度持续监控,其效果可能会逐渐退化。

在实践中,每个投产的 AI 工作流都应对以下三个问题有明确答案:(1) 谁负责系统?(2) 谁对业务结果负责?(3) 用什么指标定义成功?

  1. 将任务路由至最具性价比的系统执行

并非所有 AI 任务都需要前沿智能。事实上,甚至不是所有任务都需要大语言模型(LLM)。

关键在于将推理与执行分离。在需要判断、处理歧义、语言理解或规划的场景中,应使用基于 Transformer 的技术(如 LLM、VLM 等)。但一旦系统明确了任务目标,执行过程就应尽可能保持确定性:即通过 API、规则和传统软件来完成。

随着企业越来越多地采用智能体工作流,这一点尤为重要。例如,当缺乏结构化接口时,基于视觉的计算机操作智能体或许能派上用场;但对于那些本可通过直接调用 API 完成的工作流而言,这种自动化方式的成本往往要高得多。

某些工作流确实仍需借助当前最强大的推理模型。面向客户的工作流、复杂的编程智能体或受监管的决策流程,可能值得投入前沿智能资源。但大量任务完全可以由更小的模型、开源模型、确定性系统来处理,甚至无需任何模型介入。

这不仅仅要求掌握模型路由、提示词优化、缓存和评估框架等技术,更需要对工作流本身有深入的理解:哪些步骤需要推理能力,哪些步骤适合软件自动执行,哪些步骤需人工审批,以及哪些步骤应当彻底移除。

  1. 将专有数据和工作流转化为学习飞轮。

优秀的 AI 系统应当越用越便宜、越用越好。但这只有在企业能够从实际工作流中捕获数据的前提下才能实现:包括用户提出了什么问题、需要哪些上下文、系统采取了哪些操作、在哪些环节出现了失败,以及最终哪些结果被采纳。

久而久之,这就形成了一个飞轮效应。使用量越大,产生的工作流数据就越丰富;而更优质的工作流数据又能反过来提升检索效果、优化模型路由并改进工作流设计。这将带来重试次数的减少、上下文管理的改善、人工干预的降低,以及单次产出成本的下降。

这正是构建可持续 AI 成本优势的关键所在。两家公司或许使用相同的基础模型,但它们不会拥有相同的专有工作流数据——也未必具备同等的能力将这些数据转化为更低成本、更智能的系统。

Image 8

_AI 成本优化的六项战术建议_

AI 本应让智能变得更廉价。从长远来看,这一愿景大概率会实现。但在短期内,情况却恰恰相反:随着 AI 能力的增强,企业发掘出越来越多的应用场景,而每一个新工作流的上线都意味着成本的增加。

这并不意味着企业应当退缩,而是提醒他们需要更加审慎地布局。AI 应用的下一阶段竞争,不再取决于谁消耗的 token 最多或部署的智能体数量最大,而在于谁能将 AI 转化为可衡量的生产力——以及谁能让系统随着时间推移不断降低成本。

在第二部分中,我们将探讨这对投资者意味着什么:“成本优化技术栈”究竟长什么样?新的机遇在哪里?哪些初创公司最具潜力从中受益?

敬请期待。

AI 可能会生成不准确的信息,请核实重要内容