Matthew Berman视频2026年6月1日

SWEbench 已失效。

4.5Score

可直接观看的视频资源打开原视频

TL;DR · AI 摘要

SWEbench 基准测试已失效，GPT 5.5 在 Deep Suite 上以 70% 准确率领先 Opus 4.7 的 54%，而 SWEbench 显示相反趋势，表明基准不可靠。

核心要点

GPT 5.5 在 Deep Suite 基准上达到 70% 准确率，显著高于 Opus 4.7 的 54%。
SWEbench 测试中 GPT 5.5 与 Opus 4.7 表现差异方向相反，质疑其可靠性。
Opus 4.8 和 Gemini 3.1 Pro 有重大性能提升，但未提供具体数据。

结构提纲

按章节快速跳转。

§SWEbench 基准测试争议
SWEbench 因基准测试间模型评分不一致而被认为不可靠。
·Deep Suite 性能对比
GPT 5.5 在 Deep Suite 上达到 70% 准确率，显著高于 Opus 4.7 的 54%。
·SWEbench 矛盾结果
SWEbench 显示 GPT 5.5 和 Opus 4.7 的性能差异方向与 Deep Suite 相反。
§新模型进展
Opus 4.8 和 Gemini 3.1 Pro 展现出比先前版本显著的性能提升。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

SWEbench Benchmark Controversy
- Deep Suite Performance
  - GPT 5.5: 70% accuracy
  - Opus 4.7: 54% accuracy
- SWEbench Contradiction
  - Reversed performance trends
- New Model Progress
  - Opus 4.8
  - Gemini 3.1 Pro

金句 / Highlights

值得收藏与分享的关键句。

GPT 5.5 在 Deep Suite 上高达 70%，Claude Opus 4.7 为 54%。
— [0:26]
⬇︎ 下载 PNG 𝕏 分享到 X
GPT 5.5 与 Opus 4.7 的差异在另一个方向上相当显著。
— [0:38]
⬇︎ 下载 PNG 𝕏 分享到 X
Opus 4.8 和 Gemini 3.1 Pro 有巨大跳跃。
— [0:45]
⬇︎ 下载 PNG 𝕏 分享到 X

#SWEbench#Deep Suite#GPT#Opus#Gemini

SWEbench 已失效。 | Matthew Berman | traeai