T
traeai
登录
返回首页
Viking(@vikingmute)

昨天又有一个新的 coding benchmark DeepSWE:https://t.co/3V65OaHScM 创新是无污染的任务,就是所有任务全新原创,从零编写,未基于现有 PR/Commi...

8.5Score
昨天又有一个新的 coding benchmark  DeepSWE:https://t.co/3V65OaHScM

创新是无污染的任务,就是所有任务全新原创,从零编写,未基于现有 PR/Commi...

TL;DR · AI 摘要

DeepSWE 是一个全新的编程基准测试,涵盖多种语言和真实世界复杂度,参考解决方案平均需要修改 668 行代码。

核心要点

  • DeepSWE 是一个全新的编程基准测试,涵盖多种语言和真实世界复杂度。
  • 参考解决方案平均需要修改 668 行代码。
  • GPT-5.5 xhigh 在测试中排名第一,通过率为 90%。

结构提纲

按章节快速跳转。

  1. 介绍 DeepSWE 的背景和特点。

  2. 强调任务的创新性、多样性、真实世界复杂度和代码修改量。

  3. 展示 GPT-5.5 xhigh 在测试中的表现。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • DeepSWE

金句 / Highlights

值得收藏与分享的关键句。

#DeepSWE#编程基准测试#GPT-5.5#多语言#真实世界复杂度
打开原文

创新是无污染的任务,就是所有任务全新原创,从零编写,未基于现有 PR/Commit,不会被模型预训练数据记住。还有多样性(各种语言都有)以及真实世界复杂度,参考解决方案平均需要修改 668 行代码。

最后排行是如图所示: https://t.co/MDLMuBBRrF" / X

Viking on X: "昨天又有一个新的 coding benchmark DeepSWE:https://t.co/cZLBxcjmXL 创新是无污染的任务,就是所有任务全新原创,从零编写,未基于现有 PR/Commit,不会被模型预训练数据记住。还有多样性(各种语言都有)以及真实世界复杂度,参考解决方案平均需要修改 668 行代码。 最后排行是如图所示: https://t.co/MDLMuBBRrF" / X

Don’t miss what’s happening

Image 1

Viking

@vikingmute

Show translation

昨天又有一个新的 coding benchmark DeepSWE:https://deepswe.datacurve.ai/blog 创新是无污染的任务,就是所有任务全新原创,从零编写,未基于现有 PR/Commit,不会被模型预训练数据记住。还有多样性(各种语言都有)以及真实世界复杂度,参考解决方案平均需要修改 668 行代码。 最后排行是如图所示: gpt-5.5 xhigh 第一,gpt-5.4 xhigh 第二,这个百分比是通过率,看来任务确实挺难,后面几个模型通过率非常低,其他可以自己看一下,基本符合我的想法,没想到小米的那个还挺不错的,我还没用过。

Image 2: Image

2:55 AM · May 28, 2026

·

2,156 Views

8

1

5

11

Read 8 replies

AI 可能会生成不准确的信息,请核实重要内容

昨天又有一个新的 coding benchmark DeepSWE:https://t.co/3V65OaHScM 创新是无污染的任务,就是所有任务全新原创,从零编写,未基于现有 PR/Commi... | Viking(@vikingmute) | traeai