Alex Albert(@alexalbert__)
Claude Mythos Preview 早期快照在 METR 评估中时间跨度超第二名两倍
7.5Score

TL;DR · AI 摘要
Claude Mythos Preview 在 METR 的 80% 成功率基准测试中,时间跨度超过第二名模型的两倍,达至少 16 小时(95% 置信区间 8.5–55 小时)。
核心要点
- Claude Mythos Preview 时间跨度达 16 小时(95% CI 8.5–55 小时)
- 其时间跨度是第二名模型的 2 倍以上
- 评估在 2026 年 3 月进行,属早期快照版本
结构提纲
按章节快速跳转。
METR 在 2026 年 3 月对 Claude Mythos Preview 的早期快照进行了风险评估,评估窗口有限。
评估使用 80% 成功率作为关键性能指标,衡量模型在复杂任务中的持续表现能力。
Claude Mythos Preview 的时间跨度达到至少 16 小时,是当前最佳模型的两倍以上。
95% 置信区间为 8.5 至 55 小时,表明结果具有统计稳健性,但受限于现有任务集。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Claude Mythos Preview 早期评估表现
- 时间跨度表现
- ≥16小时(50% 时间跨度)
- 是第二名的2倍以上
- 评估设置
- 2026年3月,有限窗口期
- 基于80%成功率基准
- 置信区间与局限性
- 95% CI: 8.5–55小时
- 依赖现有任务集,需新任务扩展
金句 / Highlights
值得收藏与分享的关键句。
Claude Mythos Preview 的时间跨度超过第二名模型的两倍以上。
我们估计其 50% 时间跨度至少为 16 小时(95% 置信区间 8.5–55 小时)。
评估在 2026 年 3 月进行,属于早期快照版本。
#Claude#Mythos#AI 评估#时间跨度
打开原文