T
traeai
登录
返回首页
向阳乔木(@vista8)

当下AI写代码最难的 benchmark 叫 ProgramBench。

8.5Score
当下AI写代码最难的 benchmark 叫 ProgramBench。

TL;DR · AI 摘要

ProgramBench 是当前最难的 AI 编程基准测试,要求模型仅凭二进制文件和文档从零重写程序;Claude Opus 4.7 在‘接近完成’指标上达 3%,GPT-5 和 Gemini 系列均为 0%。

核心要点

  • ProgramBench 要求 AI 从编译后的二进制文件+文档重构源码,无反编译、无联网,难度远超传统编程任务。
  • Claude Opus 4.7 在 ProgramBench 上唯一达到 3% 的‘接近完成’分数,GPT-5 和 Gemini 系列均为 0%。
  • 该测试由 Meta、Stanford、Harvard 团队联合设计,涵盖 jq 到 FFmpeg 等真实世界项目,验证了 AI 的底层理解能力。

结构提纲

按章节快速跳转。

  1. ProgramBench 是目前最难的 AI 编程评测,要求模型从零重建完整程序,不依赖源码或网络搜索。

  2. 模型只能使用编译后的二进制文件和文档,禁止反编译、联网查询或访问外部资源。

  3. Claude Opus 4.7 在‘接近完成’指标上得 3%,GPT-5Gemini 系列均未达标(0%)。

  4. Meta、Stanford、Harvard 联合开发,测试对象包括 jq、ripgrep、FFmpeg、SQLite 等真实开源项目。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • ProgramBench 基准测试
    • 测试目标
      • 从二进制文件重建源码
    • 限制条件
      • 禁用反编译
      • 禁用联网搜索
    • 评估结果
      • Claude Opus 4.7: 3% 接近完成
      • GPT-5/Gemini: 0%
    • 覆盖项目
      • 小工具如 jq
      • 大型项目如 FFmpeg

金句 / Highlights

值得收藏与分享的关键句。

  • Claude Opus 4.7 在 ProgramBench 上唯一获得 3% 的‘接近完成’分数,GPT-5 和 Gemini 系列全部为 0%。

    第 2 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 测试要求 AI 仅凭二进制文件和文档从零重构程序,不能反编译、不能上网查资料,是当前最严格的代码生成挑战。

    第 1 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#AI编程#基准测试#ProgramBench#大模型评估
打开原文

Claude Opus 4.7 最好,也只在"接近完成"这个指标上拿到了 3%,GPT-5、Gemini 系列,全是零。

这个测试是 Meta、Stanford、Harvard 的研究团队搞的:

给 AI 一个编译好的二进制文件和它的文档,让 AI 从零把这个程序重新写出来。 https://t.co/DTg3WY5uyT" / X

向阳乔木 on X: "当下AI写代码最难的 benchmark 叫 ProgramBench。 Claude Opus 4.7 最好,也只在"接近完成"这个指标上拿到了 3%,GPT-5、Gemini 系列,全是零。 这个测试是 Meta、Stanford、Harvard 的研究团队搞的: 给 AI 一个编译好的二进制文件和它的文档,让 AI 从零把这个程序重新写出来。 https://t.co/DTg3WY5uyT" / X

Don’t miss what’s happening

Image 2

向阳乔木

@vista8

Show translation

当下AI写代码最难的 benchmark 叫 ProgramBench。 Claude Opus 4.7 最好,也只在"接近完成"这个指标上拿到了 3%,GPT-5、Gemini 系列,全是零。 这个测试是 Meta、Stanford、Harvard 的研究团队搞的: 给 AI 一个编译好的二进制文件和它的文档,让 AI 从零把这个程序重新写出来。 没有源代码,不能反编译,不能上网查资料。 从小工具到大项目都有,有jq、ripgrep 这种命令行小工具。 也有 FFmpeg、SQLite、PHP 编译器这种级别。 官网:https://programbench.com 论文:https://arxiv.org/abs/2605.03546

Image 3: Image

4:52 AM · May 11, 2026

·

9,453 Views

14

8

41

46

Read 14 replies

AI 可能会生成不准确的信息,请核实重要内容

当下AI写代码最难的 benchmark 叫 ProgramBench。 | 向阳乔木(@vista8) | traeai