为什么你的 AI 账单在增加（即使令牌变得更便宜）

Gradient Flow

Gradient Flow2026年5月12日

为什么你的 AI 账单在增加（即使令牌变得更便宜）

8.5Score

TL;DR · AI 摘要

尽管单个 AI 令牌价格下降，但企业整体 AI 支出仍在增加，因为更多的工作通过 AI 完成，导致总成本上升。

核心要点

单个 AI 令牌价格下降鼓励更多消费，导致总支出增加。
CFO 对 AI 投资的审查更加严格，要求证明业务成果。
治理应集中在具体的 AI 应用或工作流，而不是软件许可或部门预算。

结构提纲

按章节快速跳转。

§为什么这成为高管问题
AI 花费不再仅是 IT 预算问题，而是需要 CFO 决定哪些请求值得持续资助。
§什么是‘tokenomics’和‘tokenmaxxing’
‘tokenomics’指 AI 使用的实际经济情况，‘tokenmaxxing’指因令牌便宜而过度使用 AI。
§为什么 AI 账单增加
尽管单个令牌价格下降，但更多工作通过 AI 完成，导致总成本上升。
§CFO 审查为何加强
实验阶段结束，财务团队开始要求证据支持继续投资。
§领导者应如何治理
治理单位应是具体的 AI 应用或工作流，而不是软件许可或部门预算。
§不同定价模型的治理方法
不同的 AI 定价模型需要不同的治理方法，以确保资源有效利用。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

AI 成本管理
- 高管问题
- Tokenomics 和 Tokenmaxxing
- 账单增加原因
- CFO 审查加强
- 治理方法
- 不同定价模型

金句 / Highlights

值得收藏与分享的关键句。

单个令牌价格下降鼓励更多消费，而不是减少。随着令牌变得更便宜，团队构建更雄心勃勃的系统：更自动化、更上下文密集、始终运行的代理程序。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
资金逻辑从支持大量松散定义的实验转向集中资源于少数具有明确回报的工作流程。
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X
在工作流级别进行预算编制，可以了解哪些用例正在扩展，哪些超支，哪些需要重新设计或关闭。
— 第 5 段
⬇︎ 下载 PNG 𝕏 分享到 X

#AI#成本管理#企业治理

打开原文

[订阅](https://gradientflow.substack.com/subscribe)•**往期内容**

AI 实验的终结：应对 CFO 的新 ROI 要求

##### 为什么这成为了一个高管问题

为什么 AI 支出不再仅仅是 IT 预算问题？ AI 已经跨越了一个门槛，各部门的总支出需要资本分配纪律，而不仅仅是软件采购审查。每个职能部门现在都有投资 AI 的理由，而有人必须决定哪些请求值得持续资助。这一决策落在了 CFO 身上，这意味着将 AI 提案框架为功能请求的技术领导者将失去资金支持，而能够展示可衡量业务成果的同行则会获得资金。

“代币经济学”和“代币最大化”在实践中实际意味着什么？ _代币经济学_ 简单来说就是 AI 使用的实际经济情况：提示词、自动化工作流和后台代理如何转化为实际支出，以及这些支出是否产生了价值。_代币最大化_ 是一种新兴的习惯，即因为代币感觉便宜或高消耗的工作流看起来更高效而推动更多工作通过 AI 完成。这种直觉可能是合理的，但它带来了治理问题，因为组织需要一种方法来区分生产性消费和浪费性消费，而大多数组织尚未建立这种能力。

_经常阅读吗？考虑成为付费支持者图 1: 🙏 _

为什么 AI 账单在代币价格不断下降的情况下仍在上升？ 较低的单价鼓励了更多的消费，而不是减少。随着代币变得越来越便宜，团队构建了更雄心勃勃的系统：更自动化、更依赖上下文、始终运行的后台代理。单个查询的边际成本感觉微不足道，因此消费扩展以填满任何存在的预算。组织如果只专注于谈判更低的单价而忽视其系统的实际设计，将会发现他们的总账单仍然在上升。

为什么 CFO 的审查正在加强？ 广泛的实验阶段即将结束。许多组织已经以某种形式部署了 AI，但很少有组织认为这些部署产生了实际价值。一旦这种差距变得明显，财务团队就会停止将 AI 视为学习练习，而是开始要求继续投资的证据。资金逻辑从支持大量定义模糊的实验转变为集中资源于少数具有明确回报的工作流。

##### 领导者应该实际治理的内容

正确的控制单位是什么：席位、团队、供应商还是工作流？ 最有用的治理单位是个别应用或工作流，而不是软件席位或部门预算。AI 成本是由使用模式生成的，而不是由谁持有许可证生成的。单个自动化工作流可能悄无声息地消耗比数十名人类用户更多的代币。在工作流级别进行预算编制，可以了解哪些用例正在扩展，哪些超出了预算，哪些应该重新设计或关闭。

何时设置支出上限有助于，何时会适得其反？ 当上限防止低价值使用的无序增长时，特别是当没有人能解释支出来源时，上限是有帮助的。当它们抑制最有效的工作时，上限会适得其反。如果你最高消费的团队也是表现最好的团队，那么一刀切的上限就像是披着财务纪律外衣的绩效税。正确的顺序是首先衡量结果，然后决定控制措施应放在哪里。

当供应商提出基于结果的定价时，领导者应该问些什么？基于结果的定价听起来很有吸引力，因为它似乎将供应商的激励与业务结果对齐。这种对齐并不是自动的。它完全取决于结果是如何定义的，成功是如何验证的，以及当系统产生技术上触发收费但没有创造实际价值的结果时会发生什么。领导者应该询问谁定义了有效的结果，争议是如何处理的，以及供应商是否有任何动机以与客户实际目标背道而驰的方式最大化可计费事件。

为什么不同的 AI 定价模型需要不同的治理方法？ 并非所有 AI 支出的行为都相同。订阅定价购买的是可预测性，但可能会在固定费用中隐藏浪费。基于使用的定价使活动可见，但会产生波动的账单。基于结果的定价听起来更符合业务需求，但它可能会掩盖验证计费结果是否正确、完整和有价值的运营工作。席位加消费的转变增加了另一个复杂性：买家可能会续签熟悉的按席位合同，同时承担使用费用、信用额度、代理操作或结果费用，这些费用的行为方式非常不同。领导者需要与价值主张、成本发生方式和性能失败方式相匹配的治理。否则，他们可能会优化旧的定价模型，而实际风险已经转移到其他地方。

席位不再是产品。越来越多地，它只是预付消费的包装。

##### 可见性：一切的前提

当前最重要的治理缺口是什么？ 归因。大多数组织无法回答哪个团队、工作流或代理消耗了多少令牌，以及这些消耗支持了哪些业务成果这一基本问题。没有这种可见性，其他所有治理机制，无论是限额、费用回收还是投资回报率门槛，都只能基于不完整的信息运行。解决归因问题是实现其他一切的前提。

良好的可见性基础设施实际上是什么样的？ 它意味着专门为每个工作流和每个代理的消耗提供近乎实时的仪表板，而不是月末发票，后者无法追溯成本到具体的决策或团队。Salesforce 扩展了其内部的 Engineering 360 仪表板，以跟踪工作流和团队级别的 AI 使用情况，这表明公司在标准报告无法为领导者提供清晰的令牌消耗、代理活动和采用模式视图时，通常需要定制的可见性工具。在这个领域，早期投资于定制的可观测性比等待供应商生态系统跟上更有回报。

如何使令牌消耗成为生产力信号而不仅仅是成本指标？ 高令牌消耗和高质量输出往往相关。在设置任何控制措施之前，将令牌支出与实际业务成果联系起来：成交的交易、解决的问题、发布的代码、防止的客户流失。一旦有了这个图景，就更多地投资于高相关性的工作流，并审查其余部分。跳过这一步骤直接设置支出上限的组织，可能会首先惩罚其最高效的团队。

##### 有效的治理机制

我们现在可以采取的最具行动性的治理步骤是什么？ 为每个应用程序设置带有自动警报阈值的令牌预算，并要求在发布任何新的人工智能功能之前进行成本影响评估。将此审查纳入冲刺计划，而不是将其视为财务团队的事后考虑。这将财务纪律嵌入开发过程，而不是在成本已经上升后再补救。

FinOps 实践是什么，为什么对 AI 很重要？ FinOps 是通过工程、财务和业务团队之间的协作，将财务责任引入技术支出的学科。应用于 AI 时，这意味着在项目启动前预测令牌需求，为竞争用例设置投资回报率审批门槛，并实施费用回收，使业务部门承担其自身消费的实际成本。特别是费用回收机制为团队创造了真正的激励，使其询问其使用是否合理。

如果消耗最高的团队也是表现最好的团队，那么一刀切的支出上限只是披着财务纪律外衣的绩效税。

基础设施选择应如何影响 AI 成本治理？ 停止从成本角度将所有 AI 工作负载视为等同。对于实验和突发容量，公共云是合适的选择，因为灵活性值得支付溢价。而对于可预测的高容量推理工作负载，私有或本地基础设施更为适合，因为固定成本在长时间内优于按需定价。默认将所有工作负载放在公共云上会带来随着工作负载扩展而显著累积的溢价。

##### 采购和组织风险

我们的供应商合同仍然是按席位计费的。这是个问题吗？ 是的。按席位计费不再能清晰地映射到 AI 系统生成的成本。在许多 AI 密集型产品中，席位正在变成包含一定量使用的基础包装，而不是总成本的可靠代理。每个提示、自动化工作流和后台代理都会消耗令牌，无论有多少人获得许可，都会导致账单波动，而按席位预算无法预测这一点。推动采用结合固定基线费用和超过约定阈值的使用量计价的混合模型，并明确价格上限、数量承诺、报告权利和超支条款。

当席位变成消耗包时会发生什么变化？ 许可证仍然很重要，因为它控制访问，但它不再能充分说明成本。两个拥有相同席位数量的团队，如果一个团队偶尔使用 AI 进行草稿编写，而另一个团队在客户服务、软件开发或安全工作流中运行上下文丰富的代理，可能会产生非常不同的账单。因此，采购团队需要协商包含的使用量、超支费率、使用报告和意外消费的合同限制。购买问题从“多少人需要访问？”转变为“我们授权了多少机器工作？”

代理型 AI 的治理成熟度差距是什么？ 代理型 AI 指的是能够自主执行一系列动作的系统，而不仅仅是响应单一提示。这在经济上很重要，因为代理不是自然的基于席位的用户。它执行任务、调用工具、消耗令牌，并且可能在人类离开后继续工作。研究表明，计划部署代理型 AI 的组织中，只有大约五分之一的组织拥有成熟的治理模型。如果没有明确的责任结构和性能指标，组织会积累所谓的“内容债务”，即需要人工修复的 AI 生成输出，这侵蚀了进一步投资的 ROI 案例。在扩展之前建立治理比在问题出现后进行改造要便宜得多。

我们应该如何构建 AI 成本治理以获得董事会的关注？ 将其视为一种竞争风险，而不是预算管理问题。未受管理的 AI 消耗会侵蚀利润，并且这种影响会随着时间的推移而加剧。那些能够良好管理其 AI 经济学的组织将在成本结构上具有优势。Token 正在成为一种真正的运营投入，对于那些希望认真扩展 AI 的组织来说，以与能源采购或资本支出相同的严谨性对待 Token 是必不可少的。

* *

![Image 5: 🎗️](https://s.w.org/images/core/emoji/17.0.2/svg/1f397.svg)Cerebras IPO![Image 6: 🎗️](https://s.w.org/images/core/emoji/17.0.2/svg/1f397.svg)

Cerebras 本周宣布上市，这是自公司早期以来我一直关注的一家 AI 基础设施公司的里程碑。我最早是在 2018 年初与 CEO Andrew Feldman 见面的，当时 Cerebras 还没有发布其第一代处理器，公司主要集中在 AI 训练上。第一代芯片推出后，团队在 2019 年我在共同主持的一个会议上做了首次演讲。此次 IPO 特别引人注目的是 Cerebras 日益关注推理，即运行训练好的 AI 模型以生成答案、代码、图像或其他输出的工作。这一转变非常重要，因为越来越多的企业将 AI 投入生产，同时推理模型在生成响应时使用更多的计算资源，而不仅仅是训练阶段。对于我们这些构建、购买或使用 AI 应用程序的人来说，另一个专注于速度的强大替代方案（相对于 Nvidia）是一个好消息。

很高兴听到 @CerebrasSystems CEO Andrew Feldman 关于他们的 Wafer Scale 硬件技术的消息 #OReillyAI pic.twitter.com/O4HFyHXBkl
— Ben Lorica 罗瑞卡 (@bigdata) 2019年9月11日