SWE-Bench style grading has been the standard for years now - you ask the agent to solve an issue an...

Scott Wu(@ScottWu46)

Scott Wu(@ScottWu46)2026年6月8日

SWE-Bench style grading has been the standard for years now - you ask the agent to solve an issue an...

8.5Score

TL;DR · AI 摘要

FrontierCode 是一种新的代码评估基准，通过多维度评价模型生成代码的质量，显著减少误判并提升评估标准。

核心要点

FrontierCode 评估标准比传统单元测试更全面，涵盖代码风格、可维护性等维度。
Opus 4.8 模型在 FrontierCode 上得分仅 13%，表现远低于传统评估方式。
FrontierCode 由开源社区维护者耗时 40 小时以上构建，任务难度和质量要求更高。

结构提纲

按章节快速跳转。

§引言
传统 SWE-Bench 评估方式存在局限，仅关注单元测试通过率。
·FrontierCode 的提出
FrontierCode 是一种新的代码评估基准，通过多维度评价模型生成代码的质量。
›评估维度
FrontierCode 评估代码风格、可维护性、副作用等多个维度，提升评估标准。
›模型表现
Opus 4.8 模型在 FrontierCode 上得分仅 13%，表现远低于传统评估方式。
›构建过程
FrontierCode 由开源社区维护者耗时 40 小时以上构建，任务难度和质量要求更高。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

FrontierCode
- 评估维度
  - 代码风格
  - 可维护性
  - 副作用
- 模型表现
  - Opus 4.8 得分 13%
- 构建过程
  - 40+ 小时由开源维护者构建

金句 / Highlights

值得收藏与分享的关键句。

FrontierCode 是一种新的代码评估基准，通过多维度评价模型生成代码的质量，显著减少误判并提升评估标准。
— 引言
⬇︎ 下载 PNG 𝕏 分享到 X
Opus 4.8 模型在 FrontierCode 上得分仅 13%，表现远低于传统评估方式。
— 模型表现
⬇︎ 下载 PNG 𝕏 分享到 X
FrontierCode 由开源社区维护者耗时 40 小时以上构建，任务难度和质量要求更高。
— 构建过程
⬇︎ 下载 PNG 𝕏 分享到 X

#AI#代码评估#模型测试#开源

打开原文

Scott Wu on X: "SWE-Bench 风格的评分方式已经沿用多年 - 你让代理解决一个问题，然后将其代码运行在预先构建的单元测试上。问题是通过单元测试只是编写生产就绪代码的一部分。你还希望从其他多个方面对代理进行评估，包括范围、编码风格和非预期的副作用。结果就是我们新的基准测试 FrontierCode - 它的误报率减少了约 80%，并且最好的模型（Opus 4.8）得分仅为 13%！“其他人像 CI 一样评分，而 FrontierCode 像技术主管一样评分。” / X

Scott Wu

@ScottWu46

SWE-Bench 风格的评分方式已经沿用多年 - 你让代理解决一个问题，然后将其代码运行在预先构建的单元测试上。问题是通过单元测试只是编写生产就绪代码的一部分。你还希望从其他多个方面对代理进行评估，包括范围、编码风格和非预期的副作用。结果就是我们新的基准测试 FrontierCode - 它的误报率减少了约 80%，并且最好的模型（Opus 4.8）得分仅为 13%！“其他人像 CI 一样评分，而 FrontierCode 像技术主管一样评分。”

Cognition

@cognition

6月8日

介绍 FrontierCode：一个提高难度和质量标准的编码评估。每个任务都由领先的开源维护者花费 40 多小时完成。模型编写的代码虽然可以运行但不够可维护。我们的评估是首个衡量：你真的会合并这段代码吗？

2026年6月8日下午7:54

81.5K

浏览量

3

7

37

4

1

41

6

2

624

8

128

阅读 37 条回复