昨天又有一个新的 coding benchmark  DeepSWE：https://t.co/3V65OaHScM

创新是无污染的任务，就是所有任务全新原创，从零编写，未基于现有 PR/Commi...

Q: 引言

介绍 DeepSWE 的背景和特点。

Viking(@vikingmute)

Viking(@vikingmute)2026年5月28日

昨天又有一个新的 coding benchmark DeepSWE：https://t.co/3V65OaHScM 创新是无污染的任务，就是所有任务全新原创，从零编写，未基于现有 PR/Commi...

8.5Score

TL;DR · AI 摘要

DeepSWE 是一个全新的编程基准测试，涵盖多种语言和真实世界复杂度，参考解决方案平均需要修改 668 行代码。

核心要点

DeepSWE 是一个全新的编程基准测试，涵盖多种语言和真实世界复杂度。
参考解决方案平均需要修改 668 行代码。
GPT-5.5 xhigh 在测试中排名第一，通过率为 90%。

结构提纲

按章节快速跳转。

§引言
介绍 DeepSWE 的背景和特点。
·DeepSWE 特点
强调任务的创新性、多样性、真实世界复杂度和代码修改量。
·测试结果
展示 GPT-5.5 xhigh 在测试中的表现。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

DeepSWE

金句 / Highlights

值得收藏与分享的关键句。

DeepSWE 是一个全新的编程基准测试，涵盖多种语言和真实世界复杂度。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
参考解决方案平均需要修改 668 行代码。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
GPT-5.5 xhigh 在测试中排名第一，通过率为 90%。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X

#DeepSWE#编程基准测试#GPT-5.5#多语言#真实世界复杂度

打开原文

创新是无污染的任务，就是所有任务全新原创，从零编写，未基于现有 PR/Commit，不会被模型预训练数据记住。还有多样性（各种语言都有）以及真实世界复杂度，参考解决方案平均需要修改 668 行代码。

最后排行是如图所示： https://t.co/MDLMuBBRrF" / X

Viking on X: "昨天又有一个新的 coding benchmark DeepSWE：https://t.co/cZLBxcjmXL 创新是无污染的任务，就是所有任务全新原创，从零编写，未基于现有 PR/Commit，不会被模型预训练数据记住。还有多样性（各种语言都有）以及真实世界复杂度，参考解决方案平均需要修改 668 行代码。最后排行是如图所示： https://t.co/MDLMuBBRrF" / X

Don’t miss what’s happening

Viking

@vikingmute

Show translation

昨天又有一个新的 coding benchmark DeepSWE：https://deepswe.datacurve.ai/blog 创新是无污染的任务，就是所有任务全新原创，从零编写，未基于现有 PR/Commit，不会被模型预训练数据记住。还有多样性（各种语言都有）以及真实世界复杂度，参考解决方案平均需要修改 668 行代码。最后排行是如图所示： gpt-5.5 xhigh 第一，gpt-5.4 xhigh 第二，这个百分比是通过率，看来任务确实挺难，后面几个模型通过率非常低，其他可以自己看一下，基本符合我的想法，没想到小米的那个还挺不错的，我还没用过。

2:55 AM · May 28, 2026

·

2,156 Views

8

1

5

11

Read 8 replies