elvis(@omarsar0)
Very interesting results from this NanoGPT-Bench eval.
6.2Score

TL;DR · AI 摘要
编码代理在AI研发任务中仅能恢复9.3%的人类进展,主要依赖超参数调优,忽视算法创新,表明当前AI代理尚未具备真实科研能力。
核心要点
- Codex、Claude Code和Autoresearch在NanoGPT-Bench评估中仅恢复9.3%的人类科研进展。
- 编码代理主要重复超参数调优,几乎未涉及算法层面的原创性研究。
- IntologyAI发布的NanoGPT-Bench是首个针对AI研发任务的基准测试工具。
结构提纲
按章节快速跳转。
- §研究背景
当前对自改进AI代理的热议缺乏对真实AI研发能力的实证评估。
IntologyAI推出NanoGPT-Bench,用于衡量AI代理在AI研发任务中的表现。
- §核心结果
Codex、Claude Code和Autoresearch在任务中仅恢复9.3%的人类科研进展。
AI代理主要进行超参数调优,极少探索算法创新或结构改进。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- AI代理在AI研发中的表现
- 评估工具
- NanoGPT-Bench
- 测试模型
- Codex
- Claude Code
- Autoresearch
- 核心发现
- 仅恢复9.3%人类进展
- 聚焦超参数调优
- 忽略算法创新
金句 / Highlights
值得收藏与分享的关键句。
Codex, Claude Code, and Autoresearch recover only 9.3% of human progress in AI R&D tasks.
Coding agents spend more of their time tuning hyperparameters than exploring algorithmic innovations.
NanoGPT-Bench is an internal eval benchmark designed to test agents on AI R&D problems with months of human progress.
#NanoGPT-Bench#Codex#Claude Code#Autoresearch#AI agents
打开原文来自 elvis 在 X 上的帖子:“NanoGPT-Bench 评估结果非常有趣。
关于自我改进型代理的讨论很多,但编码代理真的能进行真正的 AI 研发吗?
@IntologyAI 报告称,Codex、Claude Code 和 Autoresearch 仅恢复了人类进展的 9.3%。编码代理将大部分时间花在……
引用

Intology
@IntologyAI
16 小时前
编码代理能做研究吗?我们发布了 NanoGPT-Bench,这是一个内部评估工具,用于在具有数月人类进展的 AI 研发问题上测试代理。Codex、Claude Code 和 Autoresearch 仅恢复了人类进展的 9.3%,主要集中在调参上,而忽略了算法研究。