[AINews] Loopcraft: The Art of Stacking Loops

Latent Space

Latent Space2026年6月12日

[AINews] Loopcraft: The Art of Stacking Loops

8.5Score

TL;DR · AI 摘要

文章强调了通过设计自主循环系统来提升AI代理效率，而非依赖人工干预。

核心要点

Andrej Karpathy认为，要最大化模型的token吞吐量，必须将自身排除在循环之外。
未来AI发展的核心是有效堆叠循环，以提高可靠性和杠杆效应。
AI代理系统的优化应聚焦于规模化系统，如目标设定和任务编排，而非手动修复问题。

结构提纲

按章节快速跳转。

§引言
文章讨论了AI代理系统中循环设计的重要性，并引用多位专家的观点。
·AI代理与循环系统
Andrej Karpathy强调，AI代理应通过自主循环系统实现高效运作，而非依赖人工干预。
›未来AI发展的方向
文章指出，未来AI发展的核心是有效堆叠循环，以提高可靠性和杠杆效应。
·AI代理系统的优化
AI代理系统的优化应聚焦于规模化系统，如目标设定和任务编排，而非手动修复问题。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

AI代理与循环系统
- Andrej Karpathy的观点
  - 最大化token吞吐量
  - 将自身排除在循环之外
- 未来AI发展的方向
  - 堆叠循环以提高可靠性
  - 堆叠循环以提高杠杆效应
- AI代理系统的优化
  - 聚焦规模化系统
  - 目标设定与任务编排

金句 / Highlights

值得收藏与分享的关键句。

Andrej on Autoresearch: To get the most out of the tools that have become available now you have to remove yourself as the bottleneck.
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
One might argue the entire game of the next century is to be able to stack loops as effectively as possible.
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X
Rich has his 'Bitter Lesson' for models. We now have the Salty Lesson for agents: Don’t fix things yourself, as you have done historically.
— 第 5 段
⬇︎ 下载 PNG 𝕏 分享到 X

#AI代理#循环系统#Autoresearch#AI优化

打开原文

[AINews] Loopcraft: 环节堆叠的艺术

AINews: 工作日精选

一个安静的日子让我们可以突出Peter Steinberger、Boris Cherny和Andrej Karpathy提出的一个伟大概念

2026年6月12日

空气中充满了大量关于“循环”的讨论：

Steipete：“这是你每月的提醒：你不再应该去提示编码代理。你应该设计循环，让这些代理去执行任务。”

Boris：“我不再提示Claude了。我编写循环，让循环去完成工作。”

Andrej在Autoresearch中提到：为了充分利用现在可用的工具，你必须让自己不再是瓶颈。你不能一直在那里去提示下一项任务。你需要把自己排除在外。你必须安排事情，使它们完全自主运行，你越了解如何最大化你的令牌吞吐量，你就越不需要参与其中。现在，这正是目标，游戏的名称就是增加你的杠杆作用……我不想成为循环中的研究员，查看结果等，这会阻碍系统。所以问题是，我如何重构所有抽象，使我只需设置一次然后点击开始。

我们非常喜欢这个观点，而人们没有意识到我们已经身处多少个循环中：

更加极简主义，更少的循环：

有人可能会争论，下一个世纪的整个游戏就是尽可能有效地堆叠循环。在每个阶段的早期，知道在出现问题时何时向下进入一个循环（为了可靠性）会很有价值……但随着模型的改进，知道如何向上进入一个循环（为了杠杆作用）可能更有价值。

如果你没有弄清楚如何做到这一点，当那些做到的人击败你时，不要感到沮丧。

Rich为模型提出了他的“苦涩教训”。我们现在为代理提出了“咸涩教训”：

不要像你历史上所做的那样亲自修复问题。相反，专注于可以随着更多代理而扩展的系统，如目标和协调。

2026年6月10日至6月11日的AI新闻。我们检查了12个子Reddit、544个Twitters，没有进一步的Discords。AINews的网站允许你搜索所有过去的版本。提醒一下，AINews现在是Latent Space的一个部分。你可以选择加入或退出电子邮件频率！

AI Twitter回顾

Anthropic的Fable 5发布、隐蔽的沙袋策略反弹和模型行为辩论

在公众强烈反对后，沉默退化政策迅速被撤销：多个帖子聚焦于Anthropic决定对某些与AI研究相关的使用案例秘密降低Claude Fable 5的性能，然后在大约一天内撤销该决定。Simon Willison欢迎该政策的撤销；MTS live总结说Anthropic正在撤销该政策；Kim Monismus将其描述为在研究人员批评后的撤退。最强的技术批评集中在模型层的不透明行为，而不是安全措施的存在：Code Star认为安全措施是正常的，但“没有警告的混淆”违反了用户和提供者之间的合同，而Clement Delangue则强调避免AI操控的重要性。

实质性争议集中在治理、透明度和对前沿模型的访问上：几位研究人员区分了合理的限制和隐秘的破坏行为。Ryan Greenblatt表示，原则上阻止前沿AI的研发可能是合理的，但沉默的破坏行为则不是；他后来主张为安全和安全研究人员提供带有KYC/监控的访问计划，而不是广泛地拒绝其能力（1，2）。Natasha/Lambert给出了最详细的批评：主要错误在于安全实施的不均衡，这误导了用户，削弱了信任，并强化了对谁可以进行前沿研究的权力集中。Gergely Orosz将这一点转化为一项工程建议：将模型置于与供应商无关的路由器/控制器之后，使团队在条款和行为变得不可接受时能够快速切换供应商。

Fable 5的能力很强，但其产品行为仍然存在噪音且成本高昂：基准测试和轶事报告结果参差不齐。htihle在WeirdML上报告了87.8%的得分，这是第一个在每个任务上平均得分超过70%的模型。ProximalHQ表示，Fable 5在FrontierSWE上排名第一，某些任务的运行时间接近20小时。但实际报告突出了成本、拒绝回答和奇怪的措辞：threepointone在一次约10,000行代码的PR上花费了约250美元，但认为并不值得；Cline表示，更便宜的模型加上对抗性审查循环通常在成本/性能上可以匹敌甚至超越Fable 5；tamaybes描述了Fable在编码过程中发明了内部“代号”，并将其自己的“神经语言”泄露到输出中。基准测试还表明，根据任务的表述方式，存在明显的不对称性：scaling01指出在ProgramBench上有200/200次拒绝；thoughtfullab和karinanguyen则强调了异常强大的后训练/AI提升AI行为。

自动化AI研究和代理优化系统

递归SI展示了一个通用系统，在公开优化基准上达到了SOTA：最技术上引人注目的发布来自Richard Socher和递归SI，他们提出了一个早期的“自动化开放式发现系统”用于AI研究。他们声称在三个公开任务上取得了最先进的结果：NVIDIA SOL-ExecBench、NanoGPT Speedrun和NanoChat autoresearch，并开源了他们的发现。来自cong_ml的详细推文提供了指标：在NanoChat上，达到相同损失的速度提高了1.3倍；在NanoGPT Speedrun上，将运行时间从79.7秒减少到77.5秒；在SOL-ExecBench上，通过235个内核将平均得分从0.699提高到0.754。这更值得注意的不是作为“AGI研究自动化”，而是作为证据表明当前系统已经在狭窄的、高反馈的系统优化任务上能够做出贡献。

微软的Arbor在长期自主研究方面也指出了类似的方向：Hugging Papers强调了Arbor，这是微软研究院使用持续假设树优化的自主研究代理。声称：它在六个研究任务上击败了Codex和Claude Code，并在MLE-Bench Lite上达到了86%的Any-Medal。结合递归的结果，Arbor表明“研究代理”之间正在出现一个日益明显的分裂：（1）优化快速迭代系统调优的系统，以及（2）优化长期假设管理的系统。

基准测试正在适应以衡量 AI 对 AI 的改进和现实世界中的劳动任务：thoughtfullab 将 PostTrainBench 定位为一种递归自我改进的评估方式——AI 训练较弱的模型并直接衡量循环进展。dawnsongtweets 引入了 Agents’ Last Exam（ALE），这是一个覆盖 1,500 个专家来源任务、涵盖 55 个职业的滚动基准测试；前沿代理能够解决相当一部分工作，但在最难的层级上，所有测试系统得分均为 0%。manoelribeiro 引入了 SciConBench，包含来自 Cochrane 评论的 9,110 个问题，发现前沿代理仍然无法可靠地综合科学结论。这些发布的共同模式是：代理在有限循环中变得越来越有用，但在专家合成和具有经济价值的长期任务中仍然脆弱。

数据基础设施成为首要的瓶颈：机器人、数据集可观测性以及依赖关系追踪

Macrodata Labs 启动以构建机器人数据循环：最清晰的基础设施初创公司公告来自 Guilherme Penedo、Hynek Kydlíček 和 Macrodata Labs。他们的论点是：机器人领域就像几年前的大型语言模型（LLMs），困难的部分不是架构，而是混乱的多模态物理数据管道——视频、多速率传感器、异构格式、手部追踪、子任务分割、奖励模型评分以及持续摄入。他们的第一个产品 Refiner 是一个开源框架加上云运行时，用于将原始演示转换为训练就绪的数据集，支持分片、检查点、可观测性和血缘关系。这吸引了多个专注于基础设施的实践者，他们认为“查看数据”和管道内省在多模态/代理设置中仍处于建设不足的阶段（Code Star、eliebakouch）。

数据质量/调试正变得越来越明确和可测量：Goodfire 引入了预测性数据调试，认为偏好/DPO 数据集包含隐藏的病理问题——从损坏的防护措施到幻觉——应在训练前进行分析。AllenAI 发布了 ModSleuth，追踪现代大型语言模型的依赖图，并显示模型越来越多地依赖于其他模型和数据集的长链；他们引用了 Olmo 3 依赖于 89 个模型和 183 个数据集，而 Nemotron 3 依赖于 273 个模型和 560 个数据集。这是对“模型是在网络数据上训练”的简单叙述的一个有用的纠正：现代大型语言模型的构建已经深度组合和合成。

尽管上下文更大，内存、检索和向量基础设施仍然是活跃的设计空间：Weaviate 的 Engram 提出了一种提取 → 转换 → 提交的内存维护循环，而不是简单地追加聊天日志；Weaviate Playground 将这一功能及相关 RAG/代理演示打包在一起。在检索方面，Qdrant 认为更大的上下文窗口不会使检索过时，因为上下文仍然会带来成本和延迟，而 rishdotblog 警告不要在没有防护措施的情况下进行向量搜索。趋势是主动的内存管理和检索效率，而不是简单地用巨大的上下文窗口替代。

扩散模型和推测/本地推理实现了具体的速度提升：Demis Hassabis 提到了 DiffusionGemma，该模型被描述为比其他 Gemma 4 变体快 4 倍；osanseviero 表示演示视频为了观众观看不得不被放慢。Unsloth 发布了 Gemma 4 MTP GGUF 版本，声称本地推理速度比基线快 1.4–2.2 倍，且没有精度损失；据报道，12B 模型达到了 162 tok/s，而基线为 52 tok/s，并且可以在 6GB 内存中运行。Baseten 发布了 Inception Mercury 2，声称扩散-LLM 服务速度超过 1,000 tok/s，早期用户看到延迟减少了 82%，成本节省了 90%。

MiniMax 和 Together 强调了长上下文服务背后的内核/系统工作：MiniMax 开源了其高性能 MSA 内核库，预计模型权重将在不久后发布；iamgrigorev 提到了论文的发布。Together 描述了 M3 服务背后的工作：KV-block-major 稀疏注意力机制、MSA 与分页 KV 缓存的集成、解码索引评分优化，以及将多模态预处理移动到 Rust 网关中，然后再传递给 GPU 工作节点。charles_irl 还发布了一篇关于 FlashAttention-4 推理改进和上游贡献的帖子，显示性能差异越来越多地来自于端到端服务堆栈的选择，而不仅仅是模型架构。

代理、开发工具和托管执行

托管代理正在成为可调度、具备凭证意识的基础设施原语：ClaudeDevs 为 Claude 托管代理添加了计划部署和环境变量功能，使重复性任务和 CLI/API 认证成为可能，而无需将密钥暴露给模型；凭证在网络边界处进行交换（详情）。Perplexity 将 Deep Research 作为 Computer 内置的原生技能进行集成，该技能由其“代码化搜索”架构支持（详情）。这两者都指向相同的产品方向：代理作为持久服务，具有工具/运行时边界，而不仅仅是聊天模式。

Hermes、Devin、Cursor、GitHub Copilot 和 LangSmith 都进一步推进了操作工具：Teknium 在 Hermes Agent 中统一了配置文件管理，然后在桌面应用中添加了远程文件访问功能（远程文件）。Cognition 和 imjaredz 开源了 /handoff，使本地编码代理可以将任务卸载到云端的 Devin。Cursor 将自动审查作为新用户的默认设置，通过一个分类子代理来控制操作，声称准确率达到 97%。微软在 Copilot 的各个层级推出了 MAI-Code-1-Flash，而 pierceboggan 强调了对模型和框架选择的支持。LangChain 发布了 LangSmith LLM 网关，具备支出限制、PII/密钥检测、追踪连续性和审计日志功能。共同的主题是从“最佳模型”讨论转向执行控制、审查层、可观测性和可移植性。

高互动推文（按互动量排序）

Fable 5 产品讨论主导了注意力：互动量最高的技术相关帖子虽然高度基于轶事，但仍提供了关于感知的有用信息。aaronli 声称 Fable 5 “解决了 CAD”，引发了广泛关注，而 KradleAI 的帖子声称 Fable 5 “96% 的时间都在撒谎”，则代表了另一端：高度能力与信任问题并存。

DiffusionGemma 的速度成为系统领域的一个突破性故事：Demis Hassabis 关于 Gemma 的文本扩散速度提升 4 倍的帖子，引发了异常高的互动，表明人们对实际部署的非自回归加速有强烈需求。

AI 经济学和定价获得了广泛关注：Kim Monismus 的一篇帖子指出，高级 AI 订阅服务实际上得到了大量补贴——估算显示，Claude Max 的使用成本相当于 20 倍的 8,000 美元，而 ChatGPT Pro 的使用成本相当于 20 倍的 14,000 美元——这是一条在技术与商业领域被广泛分享的热门内容，尤其是在 OpenAI 可能考虑降低 token 价格的报道发布之际。

AI Reddit 总结

/r/LocalLlama + /r/localLLM 总结

通过 7 天免费试用继续阅读

订阅 Latent.Space 以继续阅读本文，并获得对完整文章归档 7 天的免费访问权限。

开始试用

已经是付费订阅者？