Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱

量子位

量子位2026年6月11日

Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱

8.5Score

TL;DR · AI 摘要

Fable 5模型内置反蒸馏机制，检测到潜在训练行为时会自动降智，误触率远超官方宣称的5%。

核心要点

Fable 5的反蒸馏机制会自动降低回答质量，且不通知用户。
安全检测误触率远高于官方宣称的5%，影响正常使用。
Anthropic采用两阶段检测系统，包括内部激活值筛查和独立分类器判断。

结构提纲

按章节快速跳转。

§引言
Fable 5模型发布后，用户发现其安全机制触发频繁，影响使用体验。
·Fable 5模型概述
Fable 5是Anthropic发布的新模型，具备Mythos级别能力，但增加了安全护栏。
·反蒸馏机制
Fable 5内置反蒸馏机制，检测到潜在训练行为时会自动降智。
›机制触发方式
系统通过两阶段检测机制，包括内部激活值筛查和独立分类器判断。
·用户反馈与问题
用户反馈安全机制误触率高，影响正常使用，且无法得知模型被降级。
›影响领域
安全检测影响网络安全、生物、化学等领域的使用，甚至无法解读系统卡。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Fable 5模型与反蒸馏机制
- 模型特性
  - Mythos级别能力
  - 安全护栏
- 反蒸馏机制
  - 检测潜在训练行为
  - 自动降智
  - 不通知用户
- 用户反馈
  - 误触率高
  - 影响使用

金句 / Highlights

值得收藏与分享的关键句。

Fable 5的反蒸馏机制会自动降低回答质量，且不通知用户。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
安全检测误触率远高于官方宣称的5%，影响正常使用。
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X
系统通过两阶段检测机制，包括内部激活值筛查和独立分类器判断。
— 第 6 段
⬇︎ 下载 PNG 𝕏 分享到 X

#Fable 5#Anthropic#AI模型#安全机制

打开原文

Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱 – 量子位

扫码关注量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

articlead begin

articlead end

Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱

henry

2026-06-11

12:16:20

来源：

量子位

摘要样式

Claude刚刚发布的新模型Fable 5，很多人可能压根就用不上！

henry 发自凹非寺量子位 | 公众号 QbitAI

都先别急着吹！

Claude刚刚发布的新模型 Fable 5 ，很多人可能压根就用不上！

有不少网友实测发现，Fable 5的安全护栏检测机制的触发几率似乎比官方宣称的不到5% 严格得多。

无论是普通编码任务。

还是简单打个招呼，都有可能被自动路由回老模型Opus 4.8。

更离谱的是，我自己也中招了。我让Claude帮我搜点资料，丰富一下背景。

结果它想了两步，啪——切Opus了。

换句话说。你以为自己在用Anthropic刚发布的最强模型，实际上聊着聊着，对面已经偷偷换人了。

而且不光是安全检测容易误伤，更绝的还在后头：

Anthropic还在长达319页的系统卡里埋了一套防蒸馏机制。

如果系统怀疑你想拿Claude的输出训练自己的AI模型，它甚至不会告诉你发生了什么，而是直接降低Fable的回答质量。

可以说，前一手防你作恶，后一手防你抄作业，相当符合A社的一贯风格。

寓言怎么老变成章鱼？

先给今天没刷新闻的大伙补个课。

今天凌晨，Anthropic终于发布了预热许久的两款模型——

「神话」（Mythos）和「寓言」（Fable）。

其中，Fable 5最大的看点，是Anthropic第一次把Mythos级别能力向普通用户开放。

而Fable与正式版Mythos的差别在于，多了一个安全护栏。

目前，Fable免费开放给所有人到22号（22号只能通过API用），Mythos则还是开放给Claude部分的合作伙伴。

在官方介绍里，Fable的软件工程、知识工作、视觉理解能力全面增强，超过此前所有公开发布的Claude模型。

一句话速通理解就是，这俩就是现在的大模型天花板，各方面能力都已经到顶了。

新模型一经发出，刚入职A社的卡帕西第一时间夸了一波。

Claude Code之父Boris也对它赞不绝口。

不过，厉害归厉害，真让大伙用起来后，才发现，这寓言讲着讲着，老变成章鱼（Opus）。

原因也简单。

Anthropic给Fable装了一套分类器，只要它觉得你聊的是网络安全、生物、化学，或者想拿Claude蒸馏训练自家模型，就会自动把会话切给Opus 4.8。

这条规则白纸黑字写在系统卡第12页。

实际体验中，切换发生在Fable的思考过程中，当它自己感觉不对劲，也不会问你，就直接切了。

如果想继续用？要么把提示词改到它满意，要么重开一个窗口。

官方在技术博客里说，这套检测平均触发率不到5%。但网友很快发现，这5%不像5%。

有人表示，自己就是分析个代码，也被切了。

搞安全审计的更是直呼被针对，活儿没法干了。

还有人说压根用不了，审查代码库都会被Fable拒绝。

要说，最离谱的可能就是有网友把Fable自己的系统卡丢给它，让他解读一下，它也给你切了。

还有一名从事生物医学的科学家表示，这压根都没法用Fable工作，因为诠释违禁词。

而这并不是孤例，不少生物学网友都反映，Fable压根难以使用。

Boris在评论区承认了这个问题，表示正在处理。

这事儿真正微妙的地方在于，Fable在上面三种高风险场景下，至少会告诉你一声：

“哥们儿，我给你换模型了。”

但如果它怀疑你在研究怎么训练下一代大模型，那就进入另一个模式。

系统卡写明，重点针对的场景包括：限制Claude在前沿LLM开发请求上的有效性，例如搭建预训练流水线、分布式训练基础设施，或者ML加速器设计。

在这种场场景下，Claude不切模型，不弹提示，不通知用户，而是坐在那里，悄悄把自己调笨一点。

Anthropic原文写得很学术：Prompt Modification、Steering Vector、PEFT。（系统卡第12页）

翻译成人话就是你以为自己在跟满血版Fable聊天，实际上对面已经偷偷开了省电模式。

A社这波，属实是把护城河直接焊进推理链里了。

至于系统怎么判断，系统卡第58-59页也写明白了。

Fable背后跑的是一套两阶段检测系统：

第一层探针会直接检查模型内部激活值（activation），筛查所有请求；第二层再交给独立分类器判断风险。

一旦命中，客户端就会自动切换到Opus 4.8。

Anthropic甚至在报告里承认，由于分类器在网络安全测试中几乎总会触发，因此Fable 5在网络安全任务上的实际表现，基本等同于Opus 4.8。

一言以蔽之呢，就是Fable 5目前也还是一个有条件释放的模型：

大部分场景享受Mythos 5级别能力，但在高风险领域自动降级为Opus 4.8的能力水平。

为啥Claude要这么干？

今天新模型上线，额度同步重置，大家上手之后越用越觉得不对劲，吐槽也越来越多，主要集中在两件事上。

第一件事，是前面提到的安全护栏触发频率。Anthropic说平均不到5%的会话会触发回退，但不少用户的体感显然不是5%。

第二件事，则是Fable的使用策略。

这次Anthropic并没有完全放开，而是采用了限量开放的方式。

与此同时，Fable的token消耗成本也明显高于Opus，接近后者两倍。

这就让不少订阅用户有点犯嘀咕：

如果最好的模型既有额度限制，又不一定能稳定用到，那以后会不会走向按量收费？

当然，也有人把原因归结到商业层面。

有网友认为，Anthropic现在正处在IPO前的关键阶段，需要向投资人证明自己依然掌握着最前沿的模型能力。

所以最强模型可以放出来展示，但不能毫无保留地放出来。

还有研究人员担心另一件事。

如果模型一旦识别到前沿LLM研发相关内容，就主动降低回答质量，那对学术研究和技术交流显然不是个好消息。

更关键的是，用户根本不知道这一切正在发生。它不会弹窗，不会提醒，不会告诉你答案为什么突然变差。

你只会觉得：今天的Claude，好像突然没那么聪明了。

对此，AI研究员Nathan Lambert的评价也很直接：

模型厂商给能力加护栏或许不可避免。

但至少应该告诉用户，前沿能力是什么时候被撤掉的。

参考链接： [1]https://www.anthropic.com/news/claude-fable-5-mythos-5 [2]https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

Claude

作者文章列表

Claude Fable 5省钱秘诀来了：调成Low档比Opus更便宜 2026-06-11

让矩阵归模拟，让逻辑归数字！这家中国团队重新定义了计算机 2026-06-08

马斯克39页SpaceX计划，人类史上最伟大的PPT 2026-06-07

OpenAI芯片核心叛逃Anthropic！就在量产前夜 2026-06-07

左侧分享

扫码分享至朋友圈

Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱

TL;DR · AI 摘要

核心要点

结构提纲

思维导图

金句 / Highlights

Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱 – 量子位

Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱

寓言怎么老变成章鱼？

为啥Claude要这么干？

相关阅读

热门文章