当下AI写代码最难的 benchmark 叫 ProgramBench。

向阳乔木(@vista8)

向阳乔木(@vista8)2026年5月11日

当下AI写代码最难的 benchmark 叫 ProgramBench。

8.5Score

TL;DR · AI 摘要

ProgramBench 是当前最难的 AI 编程基准测试，要求模型仅凭二进制文件和文档从零重写程序；Claude Opus 4.7 在‘接近完成’指标上达 3%，GPT-5 和 Gemini 系列均为 0%。

核心要点

ProgramBench 要求 AI 从编译后的二进制文件+文档重构源码，无反编译、无联网，难度远超传统编程任务。
Claude Opus 4.7 在 ProgramBench 上唯一达到 3% 的‘接近完成’分数，GPT-5 和 Gemini 系列均为 0%。
该测试由 Meta、Stanford、Harvard 团队联合设计，涵盖 jq 到 FFmpeg 等真实世界项目，验证了 AI 的底层理解能力。

结构提纲

按章节快速跳转。

§引言：最严苛的AI编程挑战
ProgramBench 是目前最难的 AI 编程评测，要求模型从零重建完整程序，不依赖源码或网络搜索。
·测试机制与限制条件
模型只能使用编译后的二进制文件和文档，禁止反编译、联网查询或访问外部资源。
·评估指标与结果对比
Claude Opus 4.7 在‘接近完成’指标上得 3%，GPT-5 和 Gemini 系列均未达标（0%）。
§研究团队与覆盖范围
Meta、Stanford、Harvard 联合开发，测试对象包括 jq、ripgrep、FFmpeg、SQLite 等真实开源项目。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

ProgramBench 基准测试
- 测试目标
  - 从二进制文件重建源码
- 限制条件
  - 禁用反编译
  - 禁用联网搜索
- 评估结果
  - Claude Opus 4.7: 3% 接近完成
  - GPT-5/Gemini: 0%
- 覆盖项目
  - 小工具如 jq
  - 大型项目如 FFmpeg

金句 / Highlights

值得收藏与分享的关键句。

Claude Opus 4.7 在 ProgramBench 上唯一获得 3% 的‘接近完成’分数，GPT-5 和 Gemini 系列全部为 0%。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
测试要求 AI 仅凭二进制文件和文档从零重构程序，不能反编译、不能上网查资料，是当前最严格的代码生成挑战。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X

#AI编程#基准测试#ProgramBench#大模型评估

打开原文

Claude Opus 4.7 最好，也只在"接近完成"这个指标上拿到了 3%，GPT-5、Gemini 系列，全是零。

这个测试是 Meta、Stanford、Harvard 的研究团队搞的：

给 AI 一个编译好的二进制文件和它的文档，让 AI 从零把这个程序重新写出来。 https://t.co/DTg3WY5uyT" / X

向阳乔木 on X: "当下AI写代码最难的 benchmark 叫 ProgramBench。 Claude Opus 4.7 最好，也只在"接近完成"这个指标上拿到了 3%，GPT-5、Gemini 系列，全是零。这个测试是 Meta、Stanford、Harvard 的研究团队搞的：给 AI 一个编译好的二进制文件和它的文档，让 AI 从零把这个程序重新写出来。 https://t.co/DTg3WY5uyT" / X

Don’t miss what’s happening

向阳乔木

@vista8

Show translation

当下AI写代码最难的 benchmark 叫 ProgramBench。 Claude Opus 4.7 最好，也只在"接近完成"这个指标上拿到了 3%，GPT-5、Gemini 系列，全是零。这个测试是 Meta、Stanford、Harvard 的研究团队搞的：给 AI 一个编译好的二进制文件和它的文档，让 AI 从零把这个程序重新写出来。没有源代码，不能反编译，不能上网查资料。从小工具到大项目都有，有jq、ripgrep 这种命令行小工具。也有 FFmpeg、SQLite、PHP 编译器这种级别。官网：https://programbench.com 论文：https://arxiv.org/abs/2605.03546

4:52 AM · May 11, 2026

·

9,453 Views

14

8

41

46

Read 14 replies