Very interesting results from this NanoGPT-Bench eval.

elvis(@omarsar0)2026年5月20日

6.2Score

TL;DR · AI 摘要

编码代理在AI研发任务中仅能恢复9.3%的人类进展，主要依赖超参数调优，忽视算法创新，表明当前AI代理尚未具备真实科研能力。

按章节快速跳转。

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

值得收藏与分享的关键句。

Codex, Claude Code, and Autoresearch recover only 9.3% of human progress in AI R&D tasks.
— Tweet text
⬇︎ 下载 PNG 𝕏 分享到 X
Coding agents spend more of their time tuning hyperparameters than exploring algorithmic innovations.
— Tweet text
⬇︎ 下载 PNG 𝕏 分享到 X
NanoGPT-Bench is an internal eval benchmark designed to test agents on AI R&D problems with months of human progress.
— Tweet text
⬇︎ 下载 PNG 𝕏 分享到 X

#NanoGPT-Bench#Codex#Claude Code#Autoresearch#AI agents

来自 elvis 在 X 上的帖子：“NanoGPT-Bench 评估结果非常有趣。

关于自我改进型代理的讨论很多，但编码代理真的能进行真正的 AI 研发吗？

@IntologyAI 报告称，Codex、Claude Code 和 Autoresearch 仅恢复了人类进展的 9.3%。编码代理将大部分时间花在……

引用

Intology

@IntologyAI

16 小时前

编码代理能做研究吗？我们发布了 NanoGPT-Bench，这是一个内部评估工具，用于在具有数月人类进展的 AI 研发问题上测试代理。Codex、Claude Code 和 Autoresearch 仅恢复了人类进展的 9.3%，主要集中在调参上，而忽略了算法研究。