Nine Things About Claude Mythos 5 That Matter If You’re Not an Enterprise Customer

Q: 引言

作者介绍文章背景并提醒读者订阅优惠。

The Algorithmic Bridge

The Algorithmic Bridge2026年6月9日

Nine Things About Claude Mythos 5 That Matter If You’re Not an Enterprise Customer

8.5Score

TL;DR · AI 摘要

Claude Mythos 5 是目前全球性能最强的 AI 模型，但普通用户将使用受限版本 Fable 5。

核心要点

Claude Mythos 5 在多个领域表现优于 OpenAI 的模型。
Fable 5 是 Mythos 5 的安全限制版本，适用于普通用户。
企业用户可使用 Mythos 5，而普通用户只能使用 Fable 5。

结构提纲

按章节快速跳转。

§引言
作者介绍文章背景并提醒读者订阅优惠。
§Claude Mythos 5 的发布
Anthropic 发布了 Claude Mythos 5，其性能在多个领域领先。
·性能对比
Claude Mythos 5 在多个基准测试中优于其他模型，包括 OpenAI 的模型。
§Fable 5 的发布
普通用户将使用 Fable 5，这是 Mythos 5 的安全限制版本。
·安全限制
Fable 5 在某些领域会受到安全分类器的限制。
§企业与普通用户的区别
企业用户可使用 Mythos 5，而普通用户只能使用 Fable 5。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Claude Mythos 5 与 Fable 5
- Claude Mythos 5
  - 性能领先
  - 适用于企业用户
- Fable 5
  - 安全限制版本
  - 适用于普通用户

金句 / Highlights

值得收藏与分享的关键句。

Claude Mythos 5 在多个领域表现优于 OpenAI 的模型。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
Fable 5 是 Mythos 5 的安全限制版本，适用于普通用户。
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X
企业用户可使用 Mythos 5，而普通用户只能使用 Fable 5。
— 第 6 段
⬇︎ 下载 PNG 𝕏 分享到 X

#Anthropic#AI模型#Claude#Fable 5#Mythos 5

打开原文

标题：如果你不是企业客户，关于 Claude Mythos 5 的九件事值得关注

URL 来源：https://www.thealgorithmicbridge.com/p/nine-things-about-claude-mythos-5

发布时间：2026-06-09T21:53:40+00:00

Markdown 内容：

嘿，我是 Alberto！👋 每周，我都会在 The Algorithmic Bridge 上发布深度的人工智能分析文章，涵盖文化、哲学和商业领域。付费订阅者还能在每周一获得操作指南，并在每周五获得新闻评论。我偶尔也会发布一些额外的文章。

快速提醒：

我正在为年度订阅提供 50% 的折扣，截止日期为 ~~6 月 5 日~~ 6 月 12 日（延长了一周）。现在就获取你的订阅，享受永久的折扣。

如果你阅读了免费版，并且一直在考虑订阅，那么现在是最佳时机。我不会很快再推出类似的优惠。

立即获取 50% 折扣

我知道我发布的文章很多，但我必须分享这篇关于 Claude Mythos 5 和 Fable 5 的“初步印象”快速文章。

Anthropic 刚刚发布了 Claude Mythos 5（博客文章，系统卡片）。在所有主要基准测试中，它都位居榜首：编程、网络安全、推理、生物学、视觉等。从数据来看，它是世界上最好的人工智能模型。比 Mythos Preview 更好。比 OpenAI 公开发布的任何东西都更好。

图片 3：基准表显示 Claude Fable 和 Mythos 与其他领先模型的比较

但你不会使用它。

你将使用的是 Claude Fable 5。它基于相同的底层模型，但顶部增加了一层安全分类器，会在某些领域阻止或降低其响应。

从企业角度出发，这次发布已经被广泛报道：它对代理编程、药物设计或长期研究意味着什么。总体来看，Mythos系列模型在定量和定性层面都比Opus和GPT-5.X模型高一个等级。但要真正体验其更高的智能，你需要在真正复杂且长期的任务上进行测试，这意味着，按定义来说，你需要花费大量金钱。如果你和我一样，每月并没有两千美元可以随意花费，所以我决定为像我们这样的人写这篇帖子。

以下是我第一印象的快速要点列表。为了及时性，我快速起草了这些内容。它旨在面向标准用户：那些喜欢Claude但收入正常的人。从今天开始，对我们来说有什么变化？以下是我认为重要的内容。

你有两周时间可以免费试用。 从今天到6月22日，Fable 5包含在Pro、Max等付费计划中。之后，它将从这些计划中移除，并变为仅按信用额度（按使用付费）的模型，直到Anthropic拥有足够的容量来在标准计划中提供服务。我的建议是在两周的窗口期内尽可能多地尝试它，因为恢复时间没有具体日期。习惯于无法正常访问新模型；这将成为新的常态。

“世界上最好的模型”对不同的人来说意味着不同的东西。 这是我认为最重要的一个观点。如果你是一位开发者，正在一个拥有5000万行代码的代码库中运行基于循环的代理式编码任务，那么这些基准测试结果与你的生活和工作直接相关。恭喜你，这些模型确实是一个巨大的升级。另一方面，也有一些人使用Claude来撰写电子邮件、头脑风暴想法、总结文档或帮助他们写作。Fable/Mythos模型并不适合你。你可以使用Anthropic提供的第二好的模型，因为它已经足够好。在正常白领工作中，你不会找到任何一项任务，能明确且可衡量地证明Mythos级别的模型比Opus级别有明显优势。利用免费的两周窗口期亲自验证一下，然后回来和我一样，做普通人该做的事。这些提升主要集中在任务复杂性和长度更高的领域。随着时间的推移，这一点只会更加明显；这就是我为什么说：“AGI已经来了，只是分布不均。”更长的任务、更难的任务、更深入的知识、更大的模型——人工智能的前沿现在只对人工智能实验室本身和少数外部人员相关。即使OpenAI希望像他们在yesterday’s blog post（可能是对Anthropic关于递归自我改进的博客文章的隐秘回应）中所说的那样，给世界上的每个人一个“个人AGI”，即使如此，大多数人实际上对一个极其尖锐的AGI并没有实际用途。一个尖锐的超级智能，是给那些生活在高峰上的人的礼物，对我们这些生活在低谷的人来说毫无意义。

Token rich, token poor. 我们正进入一个阶段，主要的资源限制不再是模型的智能程度，而是你愿意消耗多少个 token。测试时的计算能力——让模型思考更久、重试、做笔记、迭代等——正成为主要的扩展轴。如果你问模型一个完美的问题，模型并不会变得更聪明，但如果你让它在某件事上持续工作数小时，情况就不同了。然而，如果 API 的定价是每百万个输入 token 10 美元，每百万个输出 token 50 美元（这比 Opus 4.8 的价格高出一倍），你可能并不愿意消耗那么多 token。OpenAI 研究员 Noam Brown 表示，“从经验来看，测试时计算能力的瓶颈非常遥远。有时，我们甚至在实际预算范围内根本看不到瓶颈。”这意味着模型在性能上可以持续提升的时间，可能远超过你维持财务状况的时间。相关地，硅谷出现了一种新趋势，基本上是将测试时计算能力推向极致：循环工程（由 Claude Code 创造者和 OpenClaw 创造者开创）。你不再直接提示模型，而是设计循环，让代理自己决定该做什么；你不再干预。（Ethan Mollick 将其称为 “赞助者”，即委托工作的人，而不是“巫师”，即施法的人。）有趣的是，一个循环如果运行时间比预期稍长一些，就可能耗尽你的银行账户，甚至你孩子的银行账户，以及他们孩子的银行账户。我读到过一个人的证词，他在 Fable 5 上一天内就花掉了 100 万美元。因此，这种与 Mythos 级模型相辅相成的循环工程趋势，创造了一种重要的分界线，这种分界线超越了是否拥有适合这些模型任务的问题。我称之为“token 富裕者与 token 贫乏者”的分界线。（我在 2024 年以类似的方式写过相关内容：“AI 富裕者与 AI 贫乏者。”）Anthropic 强调的这些模型的使用场景——持续一整天的代码库迁移、自主的基因组学研究、多步骤的药物设计——会消耗数百万个 token。在这样的规模下，一个真正的高阶用户或小型团队每月可能要花费数万美元。该模型的价格低于 Mythos Preview（Anthropic 表示不到一半），如果你已经在企业规模上花费，如果你已经是 token 富裕者，那么它就是一笔划算的交易。如果你的 AI 预算只是 Pro 或 Max 订阅——这就是我的情况；我每月支付约 130 美元，我可能仍然属于最高支付用户中的 0.1%——那么你可能应该庆幸自己没有 Mythos 级别的任务，否则你不会说“我对这个模型没有用处”，而是更痛苦地说“我买不起这个模型”。

最重要的安全措施对用户是不可见的。 根据 Anthropic 的说法，Fable 5 有四类安全分类器。其中三类——网络安全、生物/化学以及蒸馏（为了避免中国追赶）——是可见的。当它们触发时，你会收到一条信息，提示响应来自 Opus 4.8（下一个最佳模型）。但 Anthropic 增加了一项特殊的安全措施，限制了 Claude 在与第四类相关请求上的有效性：前沿大语言模型开发。本质上，其他 AI 公司将无法通过使用 Anthropic 的顶级模型来提升自己的 AI 技术（从商业角度来看是公平的）。当分类器触发时，模型会通过“提示修改、引导向量或微调调整”等方式被降级。Anthropic 估计这影响了约 0.03% 的流量。我的猜测是，他们认为 Mythos 级别的模型如此优秀，以至于它们可能帮助其他实验室取得领先，不是通过像标准蒸馏那样蒸馏推理轨迹，而是像普通用户一样正常使用它。这是全新的。

人工智能赋能项目的杰文斯悖论。 这不仅仅局限于 Mythos 级别的模型，但随着模型的改进，这种现象会变得越来越明显和普遍。三个例子可以说明我的意思。在 3 月份的一期 Dwarkesh 播客中，Terence Tao 表示（他指的是前一类模型，如 Opus 4.8 和 GPT-5.5）：“我确实注意到，我现在做数学的方式发生了很大的变化，我所做的事情类型也发生了变化。例如，我现在写的论文中包含了大量的代码和图片，因为现在生成这些内容变得非常容易。以前需要我花几个小时才能完成的图表，现在几分钟就能完成。” Andrej Karpathy（现在在 Anthropic 工作）谈到 Fable 5 时说：“你可以要求任何东西——解释器、可视化工具、仪表板、定制的一次性应用程序（例如，一个完全针对你项目高度定制的 wandb），你可以将你的测试套件提高十倍，自动优化代码，使用自定义 HTML 运行大型研究项目，任何事情都可以！‘释放你的思维’（Matrix 引用）。” Ethan Mollick 使用 Fable 5 制作了一款研究人员多年来一直需要但从未盈利的软件。这个想法是：即使 AI 模型对你的核心工作（由于你极其专业或因为这样做成本过高或其他原因）没有带来多少深度上的帮助，这些模型现在已经足够好，让你可以完成大量高质量的与核心工作相关但原本不会做的事情。这些事情不是玩具性质的，而是确实值得投入时间和成本的。

你不是获得两周免费时间；他们是在获得你两周的免费时间。 分类器的调整是保守的（有几个人报告称，它们对无害的查询误触发得非常频繁），而修复一个保守的分类器的唯一方法是向它输入大量真实的、无害的、人类流量，而这正是每个 Pro 和 Max 计划提供的免费窗口期所给予 Anthropic 的。（再加上一个新的强制性 30 天聊天记录保留政策；他们表示不会将这些聊天记录用作模型训练数据，但也许重新训练分类器不算。）

Anthropic 正在领先于其他竞争者。 递归自我改进如今被频繁提及，就像 AGI 在 GPT-4 推出时那样（即，过于频繁地被提及）。它的工作原理类似于接近黑洞。你越靠近，引力就越强，因此你移动得就越快，从而更接近黑洞，引力也更强，如此循环，直到你抵达事件视界（奇点）。至少，这是 OpenAI 和 Anthropic 的押注（Google 有不同的看法；我稍后会详细说明）。自 2026 年 1 月以来，OpenAI 和 Anthropic 都接连不断地发布了新模型，这让全球的 AI 竞赛变成了两人之间的对决。如果 OpenAI 不尽快推出重大成果，这场竞赛基本上就变成了 Anthropic 与自身的较量。OpenAI 在昨天的博客文章中表示，他们预计在 2028 年 3 月实现递归自我改进（Anthropic 最初表示是在 2028 年底，随后表示他们的估计过于保守，并认为实现时间会更早）。两者之间的主要区别在于，OpenAI 坚持将人类纳入循环：他们希望 AI 能够“与我们的研究人员协同工作”。让我们看看他们是否能回答 Mythos 5/Fable 5 的问题，否则他们的观点将无关紧要。

作为一名作者。 是的，这真的很糟糕。它和之前的模型一样糟糕，和 OpenAI、Google 的模型一样糟糕。写作——不仅仅是创造性的写作，而是普通的、_好的_ 写作——显然超出了接近 AGI 的模型能力。我想，处理语言对语言模型来说太复杂了。现在认真地说，我理解写作不是，也不会是 AI 实验室的主要目标，但目前看来，他们对此无能为力。我讨厌 AI 写作，不是因为它差，而是因为它无处不在（双关语）。请让它停止吧。出于善意：如果“优秀写作”或更广泛地说“创造力”这项技能被大量后期训练所掩盖，正如一些 AI 人士声称那样，而他们却从未训练过一个模型来展示它，那么原因可能在于，如果训练了这样的模型，它将失去后期训练带来的其他一切（比如智能）。这（尽管不一定令人信服）是证据，说明 1）随着模型变得更强大，其能力的不均衡性并没有显著减少，2）AI 模型到目前为止，是“非此即彼”的智能。

我最喜欢的基准测试。 ARC-AGI-3 的结果尚未公布，我真的非常想知道这个模型表现如何。我的猜测是低于 5%。如果它超过 10%，我会感到非常惊讶。