Deep Suite 最近有什么新动态？

traeai 已收录 3 篇与 Deep Suite 相关的内容。最新一篇是「Finally a good benchmark (DeepSWE)」，由 Matthew Berman 发布。

概念

Deep Suite

An alternative benchmark reflecting real-world model usage.

已跟踪 3 条高相关材料

Finally a good benchmark (DeepSWE)

Matthew Berman · 8.5 分

Deep Suite 是一个软件工程基准测试，旨在提供比现有公共基准测试更准确的模型评估。它具有四个主要优势：无污染任务、高多样性、现实世界复杂性和可靠的验证。根据 Deep Suite 的测试，GPT 5.5 在性能上优于 Opus 4.7。

The Latest Codex Updates and The Truth about Opus 4.8

Riley Brown · 7.8 分

Anthropic发布Claude Opus 4.8，但多位专家（如Greg Eisenberg、Matt Wolf）指出其与前代4.7几乎无差异，已进入类似iPhone的‘渐进式升级’时代；Deep Suite实测显示GPT 5.5在编码任务中以更低成本获得更高得分，Open...

SWEbench is done.

Matthew Berman · 4.5 分

SWEbench benchmark is invalid as GPT 5.5 scores 70% on Deep Suite versus Opus 4.7's 54%, showing opposite trends in SWEbench, indicating un...

Matthew Berman5月28日3734 字 (约 15 分钟)

入选理由：Deep Suite 通过手写任务避免了模型在预训练期间看到解决方案的问题。

精选视频#AI#机器学习#深度学习#自然语言处理#软件工程中文

Matthew Berman6月2日212 字 (约 1 分钟)

SWEbench 基准测试已失效，GPT 5.5 在 Deep Suite 上以 70% 准确率领先 Opus 4.7 的 54%，而 SWEbench 显示相反趋势，表明基准不可靠。

入选理由：GPT 5.5 achieves 70% accuracy on Deep Suite, significantly outperforming Opus 4.7 at 54%.

精选视频#SWEbench#Deep Suite#GPT#Opus#Gemini英文

回答基于：Deep Suite 相关 3 条材料