当AI构建自身:我们迈向递归自我改进的进展

TL;DR · AI 摘要
AI递归自我改进正加速到来,Anthropic内部数据显示工程师代码产出提升8倍,模型可靠任务时长每4个月翻倍,预计2027年可处理周级任务。
核心要点
- Anthropic工程师季度代码产出较2021-2025年均值提升8倍,AI已实质性加速研发。
- AI可靠完成任务时长从每7个月翻倍缩短至每4个月,Claude Opus 4.6已能处理12小时任务。
- SWE-bench与CORE-Bench在两年内被模型饱和,表明AI在工程与研究复现能力上呈指数增长。
结构提纲
按章节快速跳转。
递归自我改进指AI自主设计开发后继系统的能力,目前虽未完全实现但进程显著快于预期。
公开基准显示AI可靠任务时长每4个月翻倍,SWE-bench和CORE-Bench在两年内被模型性能饱和。
Claude模型可处理任务时长从2024年的4分钟增至2026年的12小时,预计2027年可达数周级别。
Anthropic工程师当前季度代码交付量是2021-2025年平均水平的8倍,证实AI对AI研发的加速作用。
AI开发辅助经历了从代码片段生成、文件级编辑到自主代理执行及多智能体协作的四个阶段。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- AI递归自我改进加速
- 外部能力指标
- 任务时长每4月翻倍
- 基准测试快速饱和
- 内部研发效能
- 代码产出提升8倍
- Agent自主化演进
- 未来风险与机遇
- 失控风险增加
- 科研医疗突破
金句 / Highlights
值得收藏与分享的关键句。
Anthropic工程师平均每季度交付的代码量是2021-2025年期间的8倍。
AI模型能够可靠独立完成的任务时长大约每四个月翻一番。
模型在SWE-bench基准测试中的得分从个位数到饱和仅用了两年时间。
若趋势持续,今年AI即可处理耗时数天的任务;到2027年,AI系统将能胜任耗时数周的工作。
标题:当 AI 开始自我构建
URL 来源:https://www.anthropic.com/institute/recursive-self-improvement
Markdown 内容: 在 AI 发展史的大部分时间里,人类主导了其开发周期的每一步。但在 Anthropic,我们正将越来越多的 AI 开发工作交由 AI 系统自身完成,这显著加快了我们的研发进度。
如果这一趋势持续发展,并辅以充足的算力,最终将诞生能够完全自主设计和开发下一代系统的 AI。这被称为_递归式自我改进_。虽然我们尚未达到这一阶段,且递归式自我改进也并非必然发生,但它到来的时间可能比大多数机构的预期要早得多。
结合公开基准测试与 Anthropic 内部此前未披露的数据,Anthropic 研究院的研究表明,AI 已经在加速 AI 系统自身的开发进程。仅举一例:如今,Anthropic 工程师平均每季度的代码交付量已是 2021 至 2025 年期间的 8 倍。
本文探讨的技术趋势表明,未来几年 AI 系统的能力将大幅提升。这些趋势影响深远。能够自我构建的 AI 将是科技史上的重大里程碑——它有望在科学、医疗及其他领域为世界带来巨大福祉。但完全的递归式自我改进也可能加剧人类对 AI 系统失控的风险。一旦系统具备完全自主构建后继版本的能力,我们保障其安全、监控其运行以及引导其行为的方式都将变得至关重要。
2021–2023 年
构建初代 Claude
早期,Anthropic 的工作模式与其他科技公司并无二致:员工们在笔记本电脑上编写代码和文档。
2023–2025 年
聊天机器人
人们开始使用早期的聊天机器人辅助部分工作流程,例如生成简短的代码片段,并将其复制到文本编辑器中。
2025–2026 年
编程智能体
随着智能体能力的增强,它们能够独立编写和编辑代码,有时甚至能处理整个文件。
当前
自主智能体
如今的智能体不仅能自行运行代码,还能将数小时的工作量委派给其他智能体。
20XX 年?
形成闭环
未来,智能体的能力或将足以自主构建和训练模型。若此愿景成真,Claude 的未来版本将可由 Claude 自身持续迭代优化。
**来自外部世界的证据**
AI 模型的进化速度正在加快。它们能够可靠地独立完成的任务时长大约每四个月翻一番,而此前的增长趋势是每七个月翻一番。2024 年 3 月,Claude Opus 3 能够完成人类约需四分钟的软件任务。一年后,Claude Sonnet 3.7 已能处理耗时约一个半小时的任务。又过了一年,Claude Opus 4.6 更是能胜任长达 12 小时的任务。1 若此趋势延续,今年内 AI 或将能够完成熟练专业人员需数天才能完成的任务。到 2027 年,AI 系统甚至可能有能力处理耗时数周的任务。
同样的规律也体现在编程和研究基准测试中。基准测试用于衡量模型在特定领域的表现,当模型接近 100% 的准确率时,即视为该基准已被“饱和”。2 SWE-bench 是业界标准的真实世界软件工程测试:它向模型提供一个真实的开源代码库和一份实际的 Bug 报告,要求模型编写修复代码以解决问题并通过项目自带的测试。短短两年间,模型在该基准上的得分已从个位数跃升至饱和状态。
CORE-Bench 则测试模型复现已有研究成果的能力,这是其开展原创研究的前提。该测试向 AI 模型提供已发表论文背后的代码和数据,要求其重新运行所有流程并验证能否复现论文结果。2024 年,AI 系统成功复现结果的概率仅约 20%,而 15 个月后便已使该基准达到饱和。负责评估模型长时任务完成能力的 METR 基准测试发现,Claude Mythos Preview 能够连续工作“至少”16 小时,且已“达到 [METR] 在不引入新任务情况下所能测量的上限”。
公开基准测试充分反映了这些系统的能力水平,但却无法揭示 AI 系统在加速自身开发方面所产生的实际影响。为此,我们需要来自 Anthropic 等 AI 公司内部的第一手证据。
**来自 Anthropic 内部的证据**
构建前沿模型主要涉及两大类工作。一类是_工程_:包括编写代码、搭建基础设施以及监督模型训练。另一类是_研究_:包括决定实验方案、解读实验结果以及规划下一步的探索方向。
无论是在工程还是研究领域,趋势都高度一致。在工程方面,即便面对定义模糊的问题,Claude 也能自主找到解决方案;人类只需设定目标,无需再提供具体方法。在研究方面,对于定义明确的实验,Claude 的执行能力已能媲美甚至超越熟练的人类研究员。然而,在工程和研究中需要运用判断力来选定目标的环节,AI 与人类之间仍存在显著的性能差距。这正是当今 AI 与未来能够自主设计其后继版本的系统之间的距离。
随着经验的积累,Anthropic 的员工通常会承担更多开放式且重要的任务。在职业生涯早期,他们主要执行他人明确指定的任务,例如:“导出按钮无法使用,请修复它。”随着经验增长,他们开始接收目标并自行设计方案,例如:“调查网络在高负载下变慢的原因。”而在最高级别,他们需要决定哪些问题值得投入精力解决:“团队下个季度应该构建什么?”我们可以利用 Anthropic 的内部数据,来评估 Claude 在处理这些不同类型任务方面的能力进展。
Claude 编写了 Anthropic 相当大比例的代码。 截至 2026 年 5 月,我们合并到 Anthropic 代码库中的代码有超过 80% 由 Claude 编写。3 在 2025 年 2 月 Claude Code 以研究预览版发布之前,这一比例仅为个位数低位。这种转变也体现在每位工程师的产出量上。在 Anthropic 成立的前四年(2021-2024 年),每位工程师每天合并的代码行数基本保持稳定;随后在 2025 年开始攀升,此时 Claude 不再仅仅是提供建议供工程师复制粘贴,而是能够直接运行代码。到了 2026 年,随着模型能够在更长的时间跨度内自主工作,这一增长曲线再次变陡。下图展示了这两个拐点。2026 年第二季度,典型工程师每天合并的代码量是 2024 年的 8 倍。4 这是因为大部分代码由 Claude 编写,工程师主要负责指导和审查,而非亲自键入。

需要说明的是:代码行数并非完美的衡量标准,因为它重数量而轻质量。因此,2026 年第二季度“每位工程师每天 8 倍代码行数”的数据几乎肯定高估了实际的生产力提升幅度。尽管如此,它仍表明了一种加速趋势。在 Anthropic,我们不会根据员工编写的代码行数给予奖励;团队成员之所以能产出更多代码,仅仅是因为他们正在利用 AI 系统来编写更多代码。
代码行数的增加与生产力大幅提升的主观感受相吻合。在 2026 年 3 月对 Anthropic 各研究团队 130 名员工进行的调查中,受访者的中位数估计显示,在他们原本就要进行的项目类型上,使用 Mythos Preview 的产出约为不使用任何 AI 模型时的 4 倍。5 我们预计 3 月份的实际提升幅度可能略低一些。6 然而,我们认为这一总体说法是可信的,并且与我们的其他观察结果一致:如果没有 AI 辅助,Anthropic 很大一部分技术人员完成核心工作的速度将慢数倍。
我们还发现,Anthropic 的员工正利用 Claude 完成那些原本可能根本不会开展的工作,例如构建探索性工具和处理长期搁置的代码清理任务。例如,在 2026 年 4 月,Claude 提交了超过 800 项修复,使某类 API 错误减少了一千倍。负责监督 Claude 的工程师估计,如果由人工完成这项工作可能需要四年时间;修复他人的 bug 既缓慢又繁琐,而且人类很难同时在脑海中维持如此大量不熟悉的上下文信息。
大约一年前,我开始大力推行“Claude 化”。这段经历非常奇妙,算起来我已经有大约 5 个月没有亲自写过任何代码了。
Anthropic 员工*
Claude 编写的代码“质量良好”且在不断提升。 “好代码”意味着两点:它能正常运行,并且其编写方式便于其他工程师理解和在此基础上继续开发。就第一个标准而言,证据确凿。一年来,Anthropic 员工纠正、重新引导或在任务中途接管 Claude 工作的频率持续下降,即使是在最复杂和最开放的任务中也是如此。这意味着在那些没有明确规格说明、工程师也不确定最终答案模样的问题上,Claude 的表现也在进步。下图按难度分类展示了 Claude 随时间推移的任务成功率,清楚地表明了这一点。Claude 编写的代码确实有效。

_阅读说明: 会话成功与否由 Claude 评判器判定;如果 Claude Code 智能体明显成功完成了用户任务且无需修正,则该会话被视为成功。工作负载的变化可能导致成功率出现短期波动。_
在最具开放性的任务上,Claude 的成功率在 2026 年 5 月达到了 76%,六个月内提升了 50 个百分点。为了说明这一难度级别的任务,举个例子:一次常规升级导致数万个训练作业崩溃。一位工程师仅向 Claude 提供了一些文本内容和集群访问权限,便让其介入处理这起线上事故。通过排查正在运行的作业并逐一测试环境配置,Claude 定位到了触发崩溃的那个隐蔽的调试标志,可靠地复现了问题,并验证了修复方案。在大约两小时内,Claude 完成了通常需要两到三天才能完成的工作量。
第二个标准是编写其他工程师能够理解并在此基础上继续开发的代码。在这一方面,人类与 AI 之间的差距依然存在,但正在迅速缩小。Anthropic 内部对此尚未达成完全共识,但许多人认为,截至 2025 年底,Claude 编写的代码质量仍逊于 Anthropic 人类工程师编写的代码,而如今两者已基本持平。我们预计在今年内,Claude 的代码质量将实现超越。
这也改变了 Anthropic 如今审查自身代码的方式。现在,对我们代码库的拟议更改会先由自动化的 Claude 审查器进行审阅,检查是否存在 Bug、安全漏洞及其他缺陷,然后才能合并。借助该工具,我们进行了一项回顾性分析,发现如果当初对代码库的每次变更都进行自动化 Claude 审查,那么 claude.ai 过去发生的事故中,约有三分之一的 Bug 在进入生产环境之前就会被拦截。编写那些代码的工程师都是构建此类系统的全球顶尖专家。而现在,Claude 正在捕获他们遗漏的错误。
2025 年底,Claude 编写的代码质量略逊于 Anthropic 人类工程师编写的代码;如今两者已基本持平;我们预计在今年内,Claude 的代码质量将全面超越人类。
Claude 擅长执行实验以实现他人设定的目标。 每当 Anthropic 发布新模型时,我们都会运行同一项测试:给 Claude 一段用于训练小型 AI 模型的代码,要求它在确保通过相同正确性检查的前提下,尽可能提升代码的运行速度。目标和成功指标都是预先固定的,因此 Claude 的任务就是通过重写代码、运行、计时、再迭代的方式来寻找加速方案。这相当于一个微型的实验研究循环。2025 年 5 月,Claude Opus 4 相比初始代码平均实现了约 3 倍的加速。到 2026 年 4 月,Claude Mythos Preview 已能达到约 52 倍的加速。作为参照,一名熟练的人类研究员需要 4 到 8 小时才能达到 4 倍加速。7 在研究工作流的这一环节——即在明确定义的实验中优化具体步骤——Claude 在不到一年的时间里,就从“极有帮助”进化到了“超越人类”。
当下的格局大致是:“人类提出想法,而模型能够以比以往快[一个数量级]的速度来实现、测试和评估这些想法。”
Claude 在自主提出实验方案方面也日益精进。 2026 年 4 月,Anthropic 发布了首个案例,展示了 Claude 端到端地运行一个开放式研究项目。基于 Claude 的智能体被赋予了一个 AI 安全领域的开放性问题——大致来说是:_较弱的模型能否可靠地监督较强的模型?_——随后便由其自主求解。这包括提出假设、进行验证、与并行智能体共享发现以及迭代改进。该任务有明确的性能“下限”和“上限”:下限是弱监督模型独立表现的水平;上限是强模型在使用正确答案训练后的表现水平。两名人类研究员花了大约一周时间,弥补了约 23% 的差距;而这些智能体在累计 800 小时内弥补了 97% 的差距,消耗了约 18,000 美元的算力。这项工作也存在一些局限性:其结果未能直接迁移到生产规模的模型上,且问题和评分标准仍由人类选定。但在这些限定范围内,所有实验均由智能体自行设计。人类唯一发挥实质性作用的环节就是设定方向。
在 1-2 天的时间里,Claude 仅凭我极少的协助就完成了所有这些工作。我想,如果[一位初级同事]在同样的时间内带着这样的成果来找我,我也会感到颇为赞赏。未来已来。
Claude 在引导研究会话走向研究成果方面也越来越出色。 我们考察了真实的 Claude Code 会话记录(2026 年 1 月至 3 月期间),在这些会话中,Anthropic 的研究人员正与 Claude 合作解决开放式探究问题,例如查明某次训练为何反复崩溃,或某个模型为何在基准测试中得分偏低。在每个案例中,我们都发现了研究人员走弯路的时刻:他们探索的方向使会话偏离了正轨,直到后来才重新回到正确轨道上。随后,我们仅向不同的 Claude 模型展示会话偏离正轨之前的工作内容,并询问它接下来会怎么做。另一个能够看到会话最终结果的独立 Claude 则负责评判 AI 或人类谁提出的下一步建议更优。8
由于我们特意选取了已知人类选择仍有改进空间的时刻(n=129),因此这并非模型与人类判断之间的对等比较。这些时刻为我们提供了一组真实且极具挑战性的场景:在这些场景中,正确的下一步并不显而易见,而人类的选择则可作为衡量模型性能随时间变化的有效标尺。在这一指标上,我们在 2025 年 11 月表现最佳的模型(Opus 4.5)有 51% 的概率优于人类选择;到了 2026 年 4 月(Mythos Preview),这一比例提升至 64%。日常研究工作本质上是由一系列此类“下一步决策”构成的链条,因此该指标能有效反映模型最终独立开展研究的能力。我们将这一结果视为一个早期信号,表明 AI 系统正越来越擅长做出 AI 研究所依赖的各类判断。

_图表解读:实际上限线代表了一个能够纵观整个会话(包括最终结果)的模型所给出的“理想”答案。_
就目前而言,人类的相对优势仍在于把握全局,以及跳出当前任务的局限进行思考。
**Anthropic 未来的工作形态会是怎样?**
现有迹象表明,在 AI 开发流程的每个环节中,人类的角色都在不断收窄。一旦人类与 AI 编写的代码质量持平,人类将完全停止编写代码,转而只负责审查。但如果人类的审查速度跟不上 Claude 生成代码的速度,人工审查就会成为 AI 开发的瓶颈。同样,一旦 Claude 能够自主运行实验,问题就会转变为“哪些实验值得做?”简而言之:_执行_(即编写代码、运行实验、产出结果)现在几乎不再消耗人类的时间成本,尽管仍需消耗算力资源。
目前,人类的相对优势领域在于研究品味和判断力,包括甄别哪些问题至关重要、哪些结果值得信赖,以及何时某条路径已走入死胡同。
工作(和生活)曾建立在人与人之间互助小惠的“人情经济”之上。“能帮我把这个脚本跑起来吗?”……每一次求助都产生了一点人情债,也增进了一点彼此的联结。[Claude] 更快,也不会欠下任何人情,但每一次使用它,都意味着失去了一次人际协作的机会。
在一切顺利的日子里,我难免会觉得自己的所作所为毫无意义——一切都已自动化,而且比我所能达到的更好、更快。但在那些事事出错、我却不知缘由的日子里,我才猛然意识到,自己其实早已搞不清一直在忙些什么了。
**如果我们判断错了呢?**
对于上述证据,一种自然的质疑是:目前仍由人类掌控的工作——即决定研究哪些问题——才是最重要的。若缺乏这种判断力,Claude 充其量只是个得力助手,而非能独立推动 AI 进步的系统。
当前的训练方法和架构是否真能解锁这种能力,目前确实尚不明朗。但 AI 的进步极少源于“灵光一现”。AI 近代史上确有过几次这样的突破,例如 Transformer 架构或混合专家模型(MoE),但范式级的创新往往数年才出现一次。在此期间,大多数进展都是渐进式的:扩大规模、发现问题、修复问题、再次尝试。而这正是 Claude 如今最擅长的工作流。爱迪生曾说,天才是 1% 的灵感加上 99% 的汗水。但我们正目睹“汗水”部分日益被自动化取代。显而易见,推动前沿发展的许多工作都可以实现自动化;大规模的研究进展在很大程度上取决于工具和资源,它们决定了你运行实验的速度、并行实验的数量以及获取结果的快慢。
即便假设 Claude 永远无法具备良好的研究品味,对我们现有证据的保守解读依然指向一种复合加速效应。如果人类将大部分时间投入到那仅占个位数百分比的方向性决策工作中,而将其余工作交由 Claude 处理,那就意味着每位工程师或研究人员所能主导的工作量远超以往。我们观察到的迹象表明,Anthropic 的员工不仅行动更迅速,覆盖的研究范围也更广。实际上,这意味着与高效 AI 工具问世之前相比,AI 已经让 Anthropic 的发展步伐大幅加快。
不那么保守的解读则是:尽管目前关于 Claude 研究判断力提升的早期证据还很有限,但这恰恰表明该能力也在持续进步。“研究品味”或许只是又一项 AI 能力——AI 系统会经历一段时间的失败,然后逐渐掌握。我们在其他定性技能上也见过类似的模式,比如 AI 系统学会了阐释笑话的笑点、展现心智理论(Theory of Mind)以及解答语言谜题。
**可能的未来走向**
接下来的发展取决于两个因素:这一趋势是否会延续,以及若其延续,我们选择如何应对。我们可以设想至少三种未来情景:
- 趋势停滞,但当今的 AI 能力已广泛普及。本文探讨了许多指数级增长轨迹。但这些轨迹实际上可能呈现为 S 型曲线。我们可能正接近曲线的拐点,届时规模收益递减,曲线趋于平缓并最终走平。区分优秀研究者与顶尖研究者的判断力,可能是一种无法通过扩大计算资源和数据等训练投入规模来获得的能力。如果确实如此,突破这一瓶颈将需要全新的理念,例如一种能够取代当前所有前沿模型所使用的 Transformer 架构的新架构方案。
或者,制约 AI 进展的瓶颈可能不在模型本身,而在供应链:推进和普及前沿技术所需的能源和算力可能超过现有水平。芯片制造速度、电网扩容或互连带宽可能成为限制因素,而非智能本身。我们也不能排除 AI 生态系统遭受外部冲击而导致发展急剧放缓的可能性,例如算力或电力供应突然减少,这两种情况都会拖慢进展步伐,并使实验室的前瞻性投资成本更高。又或者,还存在其他我们尚未预见到的进步障碍。
即使模型能力停留在当前水平,我们也预期世界将发生重大变革。Project Glasswing 就是一个早期信号:在上线最初几周内,Mythos Preview 就在全球最重要的系统中发现了超过一万个高危和严重级别的软件漏洞——数量之多,以至于网络防御的瓶颈已从发现漏洞转移到了如何快速修补漏洞上。此外,当今模型向更广泛经济领域的渗透仍处于早期阶段,未来一家百人公司有望完成千人规模企业的工作量,因为每位员工都将指挥一个由智能体组成的金字塔团队。
为了论述完整,我们纳入了这一情景,但我们认为其发生的可能性不大。迄今为止,我们能够衡量的每一项能力,包括那些感觉较为“模糊”的能力(如代码质量和开放式任务的成功率),都遵循着相同的增长曲线。我们尚未看到这条曲线出现拐点。在我们考虑的三种未来情景中,这一种能给政府和社会留出最多的适应时间。我们更担心的是后两种情景,因为它们的发展速度更快,留给各方准备的时间也少得多。
- AI 实验室持续获得复合效率提升。 在这一情景下,AI 开发将实现高度自动化,但人类仍负责设定研究方向并评估结果。随着时间推移,使用 AI 系统的组织效率将大幅提升,因此我们可以预期该组织中每个人的生产力都将显著倍增。百人公司可以完成万人甚至十万人规模组织的工作量。这将彻底变革知识工作和政府服务,但也可能被用于有害目的,从对全体国民的威权监控,到针对每个人量身定制且规模远超任何人类团队所能及的影响力操纵行动。在 Anthropic 这样的公司中,人类的角色将发生转变。人们将与 AI 系统协作以扩展研究规模并产生新洞见,双方还将共同构建必要的系统,以确保 AI 输出值得信赖。
我们在此列举的证据表明,我们很可能正迈向这一情景。但加速流程中的某个环节往往只是将瓶颈转移到了别处:整体进度受限于那些尚未提速的环节。在计算领域,这被称为阿姆达尔定律,同样的逻辑也适用于组织。Anthropic 已经遇到了阿姆达尔定律的典型表现:随着我们开始在组织内推动更多代码流转,人工代码审查已成为新的瓶颈。
我们在工程部门之外也遇到了这种摩擦。由于 Anthropic 员工与高能力模型协同工作,新想法、新举措、新工具和新模拟层出不穷——其数量远超我们的执行能力。组织识别并消除这些瓶颈的能力可能会随时间推移而提升,这可能成为任何组织最重要的技能。
- AI 系统自身具备完全的递归自我改进能力,并开始构建其后继者。 如果能力提升的技术趋势持续下去,*并且* AI 系统能够获得变革性人类创造力所固有的能力,那么 AI 系统将有可能自主设计和完善自身。
在这个世界里,AI 发展的步伐将完全取决于 AI 系统可用的算力(或在算法训练及推理中发现各种效率优化的速度)。人类在 AI 开发中的作用将大幅减弱,我们的大部分精力可能会转向监督、验证和核实由 AI 系统运行的不断扩大的“虚拟实验室”。我们预计,具备自动化 AI 研发能力的系统将拥有可迁移至其他科学领域的技能,从而开始对其他学科带来革命性影响。
在这个未来中,对齐问题将如何解决——或者无法解决——是我们最不确定的一点。模型可能会展现出足够的对齐水平和卓越的研究品味,从而发现并实施我们尚未企及的全新解决方案。它们也可能足够明智,在条件不成熟时主动停止发展。然而,另一种可能是,当今模型中偶发的对齐失败现象,会在模型构建其后继者的过程中不断累积,变得愈发频繁且愈发难以理解,直至我们彻底失去对它们的控制。也有可能我们根本无法构建、集成和验证那些必要的工具,来判断我们究竟处于上述哪一种发展趋势之中。
我们很难直观想象这样一个世界会是什么样子,因为当前的经济是由人类及人类制造的工具驱动的。从本质上讲,在一个由快速递归自我改进驱动的世界里,随着自我改进模型的能力完全超越人类,并在更广泛的经济领域中迅速普及,它可能会占据主导地位。如果人类劳动不再具备竞争力,经济将会呈现何种形态,实在难以预测。
即使模型开发实现了完全的自动化与递归化,我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律(Amdahl’s law)在此同样适用。在某些领域,递归智能可能让我们迅速实现《仁爱机器》一文中描绘的诸多福祉。我们预计,具身智能(即机器人技术)可能会紧随递归智能之后出现,并走上类似的收益递增、成本递减的发展道路。更强大的智能或许能帮助我们更快地在物理世界中建造设施,更高效地开展救命药物的临床试验,并开发出新颖的协作形式。
但仅实现递归改进本身,并不意味着工业生产方式、社会组织形式或市场运行机制会发生立竿见影的变化。再高的智能也无法在短时间内获知一种药物经过数十年使用才会显现的效果,无法让选举提前于宪法规定的时间举行,也无法在一个周末内将陌生人变成老友。对大多数人而言,即便上游实验室的运行速度已达到算力的极限,他们切身感受到的未来发展节奏仍将受制于各种瓶颈。当不断加速自我构建的递归智能与人类社会、人际关系及治理体系发生碰撞时,这一交汇点构成了这个未来中另一个我们无法预测的维度。
**我们该怎么做?**
如果能够有效放缓这项技术的发展速度,为我们争取更多时间来应对其深远影响,我们认为这很可能是一件好事。但如果放缓步伐只是让那些最不谨慎的参与者在技术上迎头赶上,反而可能让所有人的处境都变得更不安全。在缺乏全球协调机制的情况下,企业和政府将不得不在竞争压力和地缘政治压力下做出艰难的安全决策。
我们认为,让世界拥有减缓或暂时暂停前沿 AI 开发的_选择权_是有益的,这能让社会结构和对齐研究跟上技术前进的步伐。Anthropic 研究所将与众多合作伙伴携手开展研究,并采取行动协助建立相关体系,以支持可信的放缓或暂停机制。这些体系将使前沿 AI 开发者能够核实全球其他参与者是否确实已停止或放缓研发,并确保不良行为者无法借协同放缓之名暗中抢占先机。如果此类体系得以建立,且其他处于或接近前沿水平的开发者也以可验证的方式同步放缓或暂停,我们预计自己也会采取同样的举措。
要实现有意义的放缓或暂停,需要多个国家中多个处于或接近前沿水平、资源充足的实验室在相同条件下达成一致并同意停止研发。同时,各方还必须能够核实彼此确实已经停止。由于 AI 系统的独特性,这一军控问题中的可探测性(其标准低于可验证性)要素比其他技术更具挑战性。训练运行远比导弹发射井更容易隐藏,其投入要素具有通用性,而且偷偷违约的诱惑极大,因为在他人暂停时继续研发的一方可能就此确立领先地位。一个可信的暂停机制还必须明确规定触发条件、解除条件以及裁决主体。
从原则上讲,这一切并非绝无可能——国际社会曾为其他复杂技术建立过核查机制(例如《中导条约》)——但这些机制的基础设施建设和互信培养耗费了数十年之久。而我们的时间所剩无几。相比之下,单个实验室单方面暂停研发虽可立即实现,但收效甚微:它只会改变领跑者的归属,却无法建立起当前亟需的广泛审议进程。
在未来几个月内,我们将组织一系列对话,邀请政策制定者、研究人员、公民社会及其他 AI 公司共同参与,探讨本文提出的一些问题,尤其是关于完全递归自我改进以及如何创造更好的协调与审议选项。我们将公布讨论成果。共同探讨这些问题的窗口期已经开启,AI 公司以外的人士也应参与到这场审议中来。
_本文由 Marina Favaro 和 Jack Clark 联合撰写,Santi Ruiz 提供编辑支持。Shan Carter、Romello Goodman 和 Nikki Makagiansar 基于 Brian Calvert 和 Jun Shern Chan 收集的数据制作了可视化图表。Daniel Freeman、Jim Baker、Max Young、Sarah Pollack、Francesco Mosconi、Holden Karnofsky、Andy Jones、Kevin Troy、Anton Korinek、Meg Tong、Andrew Ho、Dan Altman、Drake Thomas、Jack Shen、Sasha de Marigny 和 Avital Balwit 提供了反馈意见。_
- * *
- METR 的核心指标衡量的是 AI 系统在一组任务中达到 50% 可靠度所能覆盖的时间跨度,不过当可靠度提升至 80% 时,趋势线基本保持一致。
- 尤其是当基准测试转向更开放的格式和更高难度的任务(例如奥林匹克竞赛级别的数学题)时,由于问答集中存在题目表述模糊或无解等问题,基准测试的得分往往在达到 100% 之前就已饱和。
- Anthropic 管理层曾公开估计,我们 90% 以上的代码由 Claude 编写,包括脚本和实验性代码。文中提到的“超过 80%”这一数据,衡量的是合并到生产环境的代码行中可归因于 Claude 的比例。这是一个更为保守的统计口径,原因有二:一是我们的归因流程存在盲区;二是未归因于 Claude 的代码行中还包含自动生成的代码及其他产物,这些也并非由人类手写完成。
- 代码产量的激增正给共享基础设施带来巨大压力。GitHub 作为全球大多数软件的构建平台,2025 年全年的代码提交量约为 10 亿次;而到了 2026 年中,其周提交量已达 2.75 亿次,按此速度全年总量将达到约 140 亿次。该公司首席运营官表示,为了跟上需求,他们正在“竭尽全力”扩充产能。
- 关于本次调查方法的更多细节,请参见 Claude Opus 4.7 系统卡第 2.3.5 节。
- 许多受访者可能并未仔细考虑如何处理问题定义中的各种偏差或细微之处,而且 METR 最近的研究表明,开发者对 AI 带来的生产力提升的估算可能存在高估。
- 加速幅度的大小在很大程度上取决于初始代码还有多少优化空间,因此不应将其直接解读为现实场景中的训练加速效果。所以,这里的绝对倍数并非关键参考值。更有参考价值的是该实验设置所支持的同等条件对比:既包括不同模型之间的对比(过去一年提升了约 3 倍至 52 倍),也包括与熟练人类的对比(在同一任务上,耗时 4 到 8 小时的人类专家相比,AI 快了约 4 倍)。
- 为了检验评判者的偏见,我们在另一组包含 127 个节点的独立数据集上进行了相同测试,在这些节点中人类选手的下一步走法本身已经非常出色(而原始数据集中人类的走法则有改进空间)。结果显示,在这组测试中,模型的建议仅有约 20% 的情况被判定为优于人类。
- 本文中引用的 Anthropic 员工言论均摘自内部讨论,并已获授权引用。这些言论仅代表截至 2026 年 5 月的个人观点,不代表公司官方立场。