T
traeai
登录
返回首页
Alex Albert(@alexalbert__)

Claude Mythos Preview 早期快照在 METR 评估中时间跨度超第二名两倍

7.5Score
Claude Mythos Preview 早期快照在 METR 评估中时间跨度超第二名两倍

TL;DR · AI 摘要

Claude Mythos Preview 在 METR 的 80% 成功率基准测试中,时间跨度超过第二名模型的两倍,达至少 16 小时(95% 置信区间 8.5–55 小时)。

核心要点

  • Claude Mythos Preview 时间跨度达 16 小时(95% CI 8.5–55 小时)
  • 其时间跨度是第二名模型的 2 倍以上
  • 评估在 2026 年 3 月进行,属早期快照版本

结构提纲

按章节快速跳转。

  1. METR 在 2026 年 3 月对 Claude Mythos Preview 的早期快照进行了风险评估,评估窗口有限。

  2. 评估使用 80% 成功率作为关键性能指标,衡量模型在复杂任务中的持续表现能力。

  3. Claude Mythos Preview 的时间跨度达到至少 16 小时,是当前最佳模型的两倍以上。

  4. 95% 置信区间为 8.5 至 55 小时,表明结果具有统计稳健性,但受限于现有任务集。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Claude Mythos Preview 早期评估表现
    • 时间跨度表现
      • ≥16小时(50% 时间跨度)
      • 是第二名的2倍以上
    • 评估设置
      • 2026年3月,有限窗口期
      • 基于80%成功率基准
    • 置信区间与局限性
      • 95% CI: 8.5–55小时
      • 依赖现有任务集,需新任务扩展

金句 / Highlights

值得收藏与分享的关键句。

#Claude#Mythos#AI 评估#时间跨度
打开原文

不要错过正在发生的事

我们提供给 METR 的早期 Claude Mythos Preview 快照,在其 80% 成功率基准测试中,时间跨度超过排名第二模型的两倍以上

Image 1: Image

引用

Image 2: Square profile picture

METR

@METR_Evals

4小时前

我们在 2026 年 3 月的一个有限时间段内,对 Claude Mythos Preview 的早期版本进行了风险评估。在我们的任务套件上,我们估算其 50% 时间跨度至少为 16 小时(95% 置信区间:8.5 小时至 55 小时),已达到我们当前测量能力的上限。

Image 3: Image

AI 可能会生成不准确的信息,请核实重要内容