Matthew Berman视频2026年6月1日

SWEbench 已经失效？

5.5Score

可直接观看的视频资源打开原视频

TL;DR · AI 摘要

文章质疑SWEbench基准测试的可信度，指出GPT-5.5在DeepSuite中表现远超Claude Opus 4.7，但SWEbench结果却显示相反，表明该测试可能已失效。

核心要点

SWEbench测试结果被质疑，GPT-5.5在DeepSuite中得分为70%，显著高于Claude Opus 4.7的54%。
GPT-5.5与Opus 4.7在SWEbench上的性能差距异常，与实际使用体验不符。
DeepSuite测试更真实地反映了模型在实际编程任务中的表现差异。

结构提纲

按章节快速跳转。

§引言：SWEbench的可信度争议
文章开头提出SWEbench基准测试的可靠性受到广泛质疑。
·DeepSuite测试结果对比
GPT-5.5在DeepSuite中得分为70%，远高于Claude Opus 4.7的54%。
·SWEbench上的性能矛盾
GPT-5.5与Opus 4.7在SWEbench上的表现差距与实际体验相反。
›测试基准的代表性问题
SWEbench可能无法准确反映模型的真实编程能力。
§结论：需要更真实的评估方法
作者主张采用如DeepSuite等更贴近实际使用的评估方式。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

SWEbench基准测试的可信度
- 测试争议
  - SWEbench结果被质疑
  - GPT-5.5与Opus 4.7表现矛盾
- 替代评估方法
  - DeepSuite测试
  - 更贴近实际使用场景
- 关键发现
  - GPT-5.5得分70%
  - Opus 4.7得分54%

金句 / Highlights

值得收藏与分享的关键句。

GPT-5.5在DeepSuite中得分为70%，而Claude Opus 4.7为54%，差距显著。
— 第0:26段
⬇︎ 下载 PNG 𝕏 分享到 X
SWEbench上GPT-5.5与Opus 4.7的性能差距与实际使用感受不符。
— 第0:38段
⬇︎ 下载 PNG 𝕏 分享到 X
DeepSuite更能反映模型在真实编程任务中的表现差异。
— 第0:23段
⬇︎ 下载 PNG 𝕏 分享到 X

#SWEbench#DeepSuite#GPT-5.5#Claude Opus#AI评估

SWEbench 已经失效？ | Matthew Berman | traeai