[AINews] FrontierCode: Benchmarking for Code Quality over Slop
![[AINews] FrontierCode: Benchmarking for Code Quality over Slop](/api/img-proxy?url=https%3A%2F%2Fsubstackcdn.com%2Fimage%2Ffetch%2F%24s_!sdBk!%2Cw_1456%2Cc_limit%2Cf_auto%2Cq_auto%3Agood%2Cfl_progressive%3Asteep%2Fhttps%253A%252F%252Fsubstack-post-media.s3.amazonaws.com%252Fpublic%252Fimages%252F0acd2026-8f85-4504-a5f3-6a0cd82d0b6a_2170x1604.png)
TL;DR · AI 摘要
FrontierCode 是一项新的代码质量评估基准,专注于衡量代码是否可合并,而非仅通过单元测试。
核心要点
- FrontierCode 由开源维护者耗时 40 多小时构建,旨在评估代码是否可合并。
- 即使给予模型更多资源,如 Python 访问权限和实验运行能力,成功率仍低于 2%。
- FrontierCode 的第三级问题揭示了 2025 年底在代理工程和元提示方面的重要进展。
结构提纲
按章节快速跳转。
- §引言
介绍 FrontierCode 的背景和目标,强调其与传统基准测试的不同。
FrontierCode 由开源维护者耗时 40 多小时构建,专注于代码是否可合并。
即使给予模型更多资源,成功率仍低于 2%,突显了当前模型在代码质量上的不足。
FrontierCode 建立在 SWEBench-Verified 的基础上,进一步完善了代码质量评估标准。
FrontierCode 指出许多通过 SWE-bench 的 PR 实际上不会被合并,存在虚假正向轨迹的问题。
- ·未来展望
FrontierCode 的第三级问题揭示了 2025 年底在代理工程和元提示方面的重要进展。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- FrontierCode
- 目标
- 评估代码是否可合并
- 超越传统基准测试
- 构建过程
- 由开源维护者耗时 40 多小时构建
- 基于 SWEBench-Verified
- 模型表现
- 成功率低于 2%
- 揭示代理工程和元提示的进展
金句 / Highlights
值得收藏与分享的关键句。
FrontierCode 是一项新的代码质量评估基准,专注于衡量代码是否可合并,而非仅通过单元测试。
即使给予模型更多资源,如 Python 访问权限和实验运行能力,成功率仍低于 2%。
FrontierCode 的第三级问题揭示了 2025 年底在代理工程和元提示方面的重要进展。
[AINews] FrontierCode:针对代码质量的基准测试
AINews:工作日精选
我们做了一件事情!
2026年6月9日
AI工程师世界博览会的第二轮AI领导力和工程+研讨会门票昨晚售罄!目前还有最后500张门票在售,售完即止!前20位看到此信息的读者可享受20%的折扣。
我们很少亲自参与当天的头条新闻,而苹果公司WWDC宣布Gemini驱动的Siri可能是一个候选,但我们之前也被误导过。因此,我们带来了FrontierCode,这是我们“对抗低质量代码”战争中的最新举措!
Cognition
@cognition
介绍FrontierCode:一个提高难度和质量标准的编码评估。每个任务都由领先的开源维护者花费40多个小时的工作时间完成。模型编写的代码虽然能运行,但难以维护。我们的评估首次测量:你真的会合并这段代码吗?
2026年6月8日 下午7:04
·
470K次查看
131条评论
189次转发
2.16K次点赞
如果你对那张图表看起来眼熟,那是因为FrontierCode明确受到FrontierMath的启发并以此命名——两年前,FrontierMath专注于前沿模型的极其困难问题:
@EpochAIResearch
3/10 我们评估了六个领先的模型,包括Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro。即使有延长的思考时间(10,000个令牌)、Python访问权限和运行实验的能力,成功率仍低于2%——与传统基准测试中超过90%的成功率相比。
2024年11月8日 下午9:05
423K次查看
12条评论
52次转发
557次点赞
FrontierCode的背景围绕着我们之前在SWEBench-Verified方面所做的工作。
- 显然,即使切换到SWEBench Pro,关于2025年发生了什么的解释仍然不足。正如在那期播客中与OpenAI团队讨论的那样,需要在代码质量和可维护性方面的评分标准上做更多工作,而这正是Cog研究团队在FrontierCode首次发布中最终构建的内容。
- 另一方面,METR发现许多通过SWE-bench的PR不会被合并到主分支,并且虚假正向轨迹的问题(虽然不完全是“奖励黑客”,但在基准测试的不可靠性方面与之精神上相似)在FrontierCode报告中被直接测量并解决。
回顾来看,FrontierCode的第三级问题展示了2025年12月突然加速的巨大进展,这使得代理工程和氛围编码能够提升到一个更高的抽象层次,即我们今天讨论的目标、循环和元提示。
更多背景信息请参见此处
2026年6月5日至6月8日的AI新闻。我们检查了12个子版块、544个推特账号,没有进一步的Discord信息。AINews网站允许你搜索所有过去的刊期。提醒一下,AINews现在是Latent Space的一个部分。你可以选择是否接收电子邮件的频率!
AI推特回顾
编码代理、循环以及从“通过测试”到“可合并软件”的转变
- FrontierCode 提高了代码评估的标准:Cognition 推出了 FrontierCode,这是一个新的基准,明确针对代码是否真的可以合并,而不仅仅是通过单元测试。这些任务是由开源维护者构建的,每位维护者花费了 40 多个小时,并在回归安全性、整洁度、作用域、测试正确性和可维护性等维度上进行了评估。主要结果是,最好的模型 Opus 4.8 在最难的子集上得分仅为约 13%,远低于 SWE-Bench 风格评估中常见的 50% 以上的水平,这表明代码编写远没有流行基准所暗示的那样“解决”了(Cognition 宣布,Scott Wu 的总结,swyx 分析,theo 对方差/可重复性的提问,Cognition 的回应)。
- “循环”正成为主导代理控制的隐喻,但有一些注意事项:当天最引人注目的实用主题是,编码代理应被赋予明确的目标、验证标准和迭代结构,而不是一次性提示。流行的例子包括 dzhng 的“不要使用循环,设计状态机”,Claude Code 对自动模式、例行程序和验证的回顾,bcherny 的推文,OpenAI Codex 关于以结果为导向的提示和“批准我”的默认设置,以及 LangChain OSS 的“评分标准”。但几位从业者对“循环”这一概念的过度宣传提出了反对意见:Omar Sar0 和 Graham Neubig 强调,在容易验证的领域之外,人类检查点仍然至关重要,而 Hamel Husain 则开玩笑说,干脆完全屏蔽这个词。
- 验证和编排方面的代理可用性正在改善:从堆栈各层的产品变化反映了这一趋势。ClaudeDevs 为 MCP 连接器开发者添加了可观测性仪表板,包括采用率、延迟和错误视图。MagicPath 推出了一个 Builder 计划,用于外部代理工作流和多人协作画布编辑。LangSmith 沙盒和 Modal 的沙盒扩展故事指向了相同的基础设施趋势:代理需要隔离、可检查、长时间运行的环境。
- 实际使用模式正在趋于稳定:最强的操作建议集中在可衡量的结果、有限的自主权和线程卫生上。Angaisb_ 警告不要使用过长的 Codex 线程,因为这会降低性能,而 reach_vb 报告通过单线程上下文累积取得了成功。这种不匹配本身就是一个有用的信号:当前代理的性能仍然在很大程度上受到框架行为和工作流程选择的影响,而不仅仅是基础模型的质量。
模型发布、本地推理和服务堆栈升级
- Kimi 同时推出了一个更强的代码代理和一个桌面代理产品:Moonshot 对 Kimi Code,其开源代码代理进行了重大更新,新增了一行 CLI 安装、拖放视频作为代码上下文、ACP 支持、插件和 IDE 集成(公告)。它还推出了 Kimi Work,一个桌面代理产品,最多可包含 300 个本地子代理,通过扩展实现浏览器使用,提供以金融为主的工具访问,并具有持久记忆(产品发布,桌面可用性)。
- Google 在高效本地部署方面加大了力度:Gemma 进行了多项显著升级。据报道,新的 QAT Gemma 4 检查点在保持性能的同时,使用的内存减少了约 4 倍,Gemma 4 E2B 使用移动量化格式大约可以适应 1GB 的内存(@_philschmid)。另外,Gemma 4 MTP 已合并到 llama.cpp 中,与 QAT 检查点配对时可以实现更快的解码(Gemma 团队)。llama.cpp 还增加了视频输入支持,扩展了本地多模态使用场景。
- 开源/开放权重的竞争依然激烈:人工分析报告称MiniMax-M3在智能指数中排名55,一旦权重发布,它将成为领先的开放权重模型。M3增加了原生的多模态功能和100万token的上下文窗口,其在GPQA/MMMU-Pro方面的表现强劲,但在涉及幻觉敏感的评估中表现出明显的回避。与此同时,norpadon宣布了针对苹果硬件优化的量化Qwen3.5检查点。
- 服务基础设施正在从文本大语言模型扩展到世界模型和全领域模型:vLLM-Omni 0.22.0新增了对NVIDIA Cosmos 3世界模型的当日支持,机器人服务API,如Qwen3-TTS和VoxCPM2等TTS模型,更快的图像/视频服务,以及更广泛的量化/硬件覆盖(发布)。这反映了更广泛的趋势,即向通用多模态服务转变,而不是仅限于文本的推理堆栈。
- 基准测试、评估方法和现实世界智能体测量
- 智能体评估正从合成任务转向真实世界的遥测数据:Arena推出了Agent Arena,这是一个基于超过100万真实会话的排行榜,使用因果追踪而非投票来估计协调器/工具链在五个信号上的处理效果:确认成功、表扬与投诉、可操控性、bash恢复和工具幻觉(概述,方法论线程)。该方法论是否完全成立仍有待观察,但这是迄今为止最清晰的一次尝试,使用实际使用追踪来评估部署的智能体。
- 专用基准测试持续扩展到新的输出领域:Hugging Face和Mecado发布了CADGenBench,这是一个用于从图纸或STEP修改中生成和编辑工程级3D CAD零件的基准测试,其指标涵盖几何、拓扑、接口兼容性和CAD有效性(发布线程,Thom Wolf总结)。这是一个重要的转变:评估正在从文本/代码扩展到结构化工件,其中正确性是物理和几何的。
- 一个反复出现的论点:优秀的基准测试会成为训练流程:Ofir Press认为,最好的基准测试是可扩展的,并且基于真实世界爬取的数据源,使它们不仅对测量有用,也对数据生成有用。这一观点在FrontierCode和Agent Arena中都隐含地体现出来:基准测试不再是静态的记分牌;它们正在成为产品和强化学习改进的反馈循环。
Google、Apple与消费级AI平台竞赛
- Google扩展了AI包装、搜索和开发者界面:Google推出了功能更强的NotebookLM,支持智能聊天、更强的推理能力和更多输出格式,面向Ultra订阅者(发布)。它还将Google AI Plus的价格从7.99美元降至4.99美元/月,同时将存储空间翻倍至400GB(价格更新)。在平台方面,Google强调了搜索的重大升级,包括多模态搜索和Gemini 3.5 Flash作为AI模式下的新默认设置。
- Apple在WWDC上的AI故事聚焦于整合,而非前沿领导地位:围绕WWDC的评论主要集中在重新构建的Siri AI上,包括屏幕感知、应用操作、个人上下文和更好的语音交互,同时关注欧盟可用性和硬件限制(kimmonismus直播线程,区域限制说明)。一个技术上值得注意的细节来自awnihannun:据报道,Apple的设备端模型是一个200亿参数的查询路由架构,每次查询时从NAND加载专家到RAM,这是一种为设备限制优化的非标准设计。
研究方向:持续学习、智能体训练与优化讨论
- Anthropic 将人工智能在科学领域的一个核心障碍归结为基础设施不匹配:其新的科学博客认为,人工智能在编程方面的进展比生物学更快,因为生物数据库和工具并未为智能体使用而设计;瓶颈不是原始智能,而是与智能体兼容的科学基础设施(Anthropic 博客系列)。这一点与更广泛的环境/工具标准化呼吁相契合。
- 开源强化学习和环境协议正在成为协调的焦点:OpenEnv 已经被转移到一个包括 Hugging Face、Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、NVIDIA 等在内的联盟。其主张是,前沿实验室使用紧密耦合的工具链共同训练模型,而开源生态系统则需要模型、工具链、环境和训练器之间的一个共享协议层。
- 持续学习在智能体领域正重新作为实际的系统问题浮现:Hivemind 宣布了一个系统,该系统能够将来自 Claude Code、Codex、Cursor 和 Hermes 等智能体的轨迹转化为可重用的技能,声称在各种设置中都取得了可衡量的提升。相关地,Nando de Freitas 发布了一个长篇系列,概述了一个围绕从交互后果中学习,而不是仅仅从标记序列中学习的研究计划。
- 优化讨论异常活跃:多个系列讨论了 Muon 是否与 Shampoo 有实质性的区别,Arohan 提示存在比 Shampoo 更好的优化器,Keller Jordan 公开对 Shampoo 和 Spectral Descent 进行了基准测试。在这些戏剧性讨论背后的关键点是:对优化器层面的提升存在新的兴趣,这被视为一个真正的前沿杠杆,而不仅仅是基准噪声。
高互动推文(按互动量排序)
- 关于英国设备扫描的信号:互动量最高的技术相关内容是 Signal 对英国要求进行设备端扫描和与年龄验证相关的内容检查的反对声明。这更多是隐私/安全政策,而不是人工智能,但直接关系到客户端推理和平台信任。
- OpenAI 的公司方向和流动性:Sam Altman 分享了 OpenAI 的当前计划,不久之后 OpenAI 宣布已秘密提交了 S-1 文件。对人工智能工程师而言,关键影响是战略性的:目前 OpenAI 和 Anthropic 都似乎在扩大产能和产品广度的同时,保留了 IPO 的选择权。
- NotebookLM 和 FrontierCode 是当天最大的纯产品/评估发布:NotebookLM 的升级、Kimi Code、Kimi Work 和 FrontierCode 主导了技术讨论,特别是 FrontierCode 重新定义了“良好的编码性能”应意味着什么的讨论。
AI Reddit 总结
/r/LocalLlama + /r/localLLM 总结
使用 7 天免费试用继续阅读
订阅 Latent.Space 以继续阅读此文章,并获得 7 天免费访问完整文章存档的权限。
开始试用
已经是付费订阅者?
上一篇
下一篇