Viking(@vikingmute)
昨天又有一个新的 coding benchmark DeepSWE:https://t.co/3V65OaHScM 创新是无污染的任务,就是所有任务全新原创,从零编写,未基于现有 PR/Commi...
8.5Score

TL;DR · AI 摘要
DeepSWE 是一个全新的编程基准测试,涵盖多种语言和真实世界复杂度,参考解决方案平均需要修改 668 行代码。
核心要点
- DeepSWE 是一个全新的编程基准测试,涵盖多种语言和真实世界复杂度。
- 参考解决方案平均需要修改 668 行代码。
- GPT-5.5 xhigh 在测试中排名第一,通过率为 90%。
结构提纲
按章节快速跳转。
- §引言
介绍 DeepSWE 的背景和特点。
强调任务的创新性、多样性、真实世界复杂度和代码修改量。
- ·测试结果
展示 GPT-5.5 xhigh 在测试中的表现。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- DeepSWE
金句 / Highlights
值得收藏与分享的关键句。
DeepSWE 是一个全新的编程基准测试,涵盖多种语言和真实世界复杂度。
参考解决方案平均需要修改 668 行代码。
GPT-5.5 xhigh 在测试中排名第一,通过率为 90%。
#DeepSWE#编程基准测试#GPT-5.5#多语言#真实世界复杂度
打开原文创新是无污染的任务,就是所有任务全新原创,从零编写,未基于现有 PR/Commit,不会被模型预训练数据记住。还有多样性(各种语言都有)以及真实世界复杂度,参考解决方案平均需要修改 668 行代码。
最后排行是如图所示: https://t.co/MDLMuBBRrF" / X
Viking on X: "昨天又有一个新的 coding benchmark DeepSWE:https://t.co/cZLBxcjmXL 创新是无污染的任务,就是所有任务全新原创,从零编写,未基于现有 PR/Commit,不会被模型预训练数据记住。还有多样性(各种语言都有)以及真实世界复杂度,参考解决方案平均需要修改 668 行代码。 最后排行是如图所示: https://t.co/MDLMuBBRrF" / X
Don’t miss what’s happening

Show translation
昨天又有一个新的 coding benchmark DeepSWE:https://deepswe.datacurve.ai/blog 创新是无污染的任务,就是所有任务全新原创,从零编写,未基于现有 PR/Commit,不会被模型预训练数据记住。还有多样性(各种语言都有)以及真实世界复杂度,参考解决方案平均需要修改 668 行代码。 最后排行是如图所示: gpt-5.5 xhigh 第一,gpt-5.4 xhigh 第二,这个百分比是通过率,看来任务确实挺难,后面几个模型通过率非常低,其他可以自己看一下,基本符合我的想法,没想到小米的那个还挺不错的,我还没用过。
·
8
1
5
11
Read 8 replies