Alex Albert(@alexalbert__)2026年5月8日

Claude Mythos Preview 早期快照在 METR 评估中时间跨度超第二名两倍

7.5Score

Claude Mythos Preview 早期快照在 METR 评估中时间跨度超第二名两倍

TL;DR · AI 摘要

Claude Mythos Preview 在 METR 的 80% 成功率基准测试中，时间跨度超过第二名模型的两倍，达至少 16 小时（95% 置信区间 8.5–55 小时）。

核心要点

Claude Mythos Preview 时间跨度达 16 小时（95% CI 8.5–55 小时）
其时间跨度是第二名模型的 2 倍以上
评估在 2026 年 3 月进行，属早期快照版本

结构提纲

按章节快速跳转。

§评估背景与时间窗口
METR 在 2026 年 3 月对 Claude Mythos Preview 的早期快照进行了风险评估，评估窗口有限。
·核心指标：80% 成功率基准
评估使用 80% 成功率作为关键性能指标，衡量模型在复杂任务中的持续表现能力。
›时间跨度突破性表现
Claude Mythos Preview 的时间跨度达到至少 16 小时，是当前最佳模型的两倍以上。
·置信区间与测量限制
95% 置信区间为 8.5 至 55 小时，表明结果具有统计稳健性，但受限于现有任务集。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Claude Mythos Preview 早期评估表现
- 时间跨度表现
  - ≥16小时（50% 时间跨度）
  - 是第二名的2倍以上
- 评估设置
  - 2026年3月，有限窗口期
  - 基于80%成功率基准
- 置信区间与局限性
  - 95% CI: 8.5–55小时
  - 依赖现有任务集，需新任务扩展

金句 / Highlights

值得收藏与分享的关键句。

Claude Mythos Preview 的时间跨度超过第二名模型的两倍以上。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
我们估计其 50% 时间跨度至少为 16 小时（95% 置信区间 8.5–55 小时）。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
评估在 2026 年 3 月进行，属于早期快照版本。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X

#Claude#Mythos#AI 评估#时间跨度

不要错过正在发生的事

我们提供给 METR 的早期 Claude Mythos Preview 快照，在其 80% 成功率基准测试中，时间跨度超过排名第二模型的两倍以上

Image 1: Image

引用

METR

@METR_Evals

4小时前

我们在 2026 年 3 月的一个有限时间段内，对 Claude Mythos Preview 的早期版本进行了风险评估。在我们的任务套件上，我们估算其 50% 时间跨度至少为 16 小时（95% 置信区间：8.5 小时至 55 小时），已达到我们当前测量能力的上限。

Image 3: Image