[AINews] Loopcraft: The Art of Stacking Loops
![[AINews] Loopcraft: The Art of Stacking Loops](/api/img-proxy?url=https%3A%2F%2Fsubstackcdn.com%2Fimage%2Ffetch%2F%24s_!6Y74!%2Cw_2400%2Cc_limit%2Cf_auto%2Cq_auto%3Agood%2Cfl_progressive%3Asteep%2Fhttps%253A%252F%252Fsubstack-post-media.s3.amazonaws.com%252Fpublic%252Fimages%252F517bbc58-4f26-46b5-a12e-f4a5f84b0a30_1986x1118.png)
TL;DR · AI 摘要
文章强调了通过设计自主循环系统来提升AI代理效率,而非依赖人工干预。
核心要点
- Andrej Karpathy认为,要最大化模型的token吞吐量,必须将自身排除在循环之外。
- 未来AI发展的核心是有效堆叠循环,以提高可靠性和杠杆效应。
- AI代理系统的优化应聚焦于规模化系统,如目标设定和任务编排,而非手动修复问题。
结构提纲
按章节快速跳转。
- §引言
文章讨论了AI代理系统中循环设计的重要性,并引用多位专家的观点。
Andrej Karpathy强调,AI代理应通过自主循环系统实现高效运作,而非依赖人工干预。
文章指出,未来AI发展的核心是有效堆叠循环,以提高可靠性和杠杆效应。
AI代理系统的优化应聚焦于规模化系统,如目标设定和任务编排,而非手动修复问题。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- AI代理与循环系统
- Andrej Karpathy的观点
- 最大化token吞吐量
- 将自身排除在循环之外
- 未来AI发展的方向
- 堆叠循环以提高可靠性
- 堆叠循环以提高杠杆效应
- AI代理系统的优化
- 聚焦规模化系统
- 目标设定与任务编排
金句 / Highlights
值得收藏与分享的关键句。
Andrej on Autoresearch: To get the most out of the tools that have become available now you have to remove yourself as the bottleneck.
One might argue the entire game of the next century is to be able to stack loops as effectively as possible.
Rich has his 'Bitter Lesson' for models. We now have the Salty Lesson for agents: Don’t fix things yourself, as you have done historically.
[AINews] Loopcraft: 环节堆叠的艺术
AINews: 工作日精选
一个安静的日子让我们可以突出Peter Steinberger、Boris Cherny和Andrej Karpathy提出的一个伟大概念
2026年6月12日
空气中充满了大量关于“循环”的讨论:
- Steipete:“这是你每月的提醒:你不再应该去提示编码代理。你应该设计循环,让这些代理去执行任务。”
- Boris:“我不再提示Claude了。我编写循环,让循环去完成工作。”
- Andrej在Autoresearch中提到:为了充分利用现在可用的工具,你必须让自己不再是瓶颈。你不能一直在那里去提示下一项任务。你需要把自己排除在外。你必须安排事情,使它们完全自主运行,你越了解如何最大化你的令牌吞吐量,你就越不需要参与其中。现在,这正是目标,游戏的名称就是增加你的杠杆作用……我不想成为循环中的研究员,查看结果等,这会阻碍系统。所以问题是,我如何重构所有抽象,使我只需设置一次然后点击开始。
我们非常喜欢这个观点,而人们没有意识到我们已经身处多少个循环中:
更加极简主义,更少的循环:
有人可能会争论,下一个世纪的整个游戏就是尽可能有效地堆叠循环。在每个阶段的早期,知道在出现问题时何时向下进入一个循环(为了可靠性)会很有价值……但随着模型的改进,知道如何向上进入一个循环(为了杠杆作用)可能更有价值。
如果你没有弄清楚如何做到这一点,当那些做到的人击败你时,不要感到沮丧。
Rich为模型提出了他的“苦涩教训”。我们现在为代理提出了“咸涩教训”:
不要像你历史上所做的那样亲自修复问题。相反,专注于可以随着更多代理而扩展的系统,如目标和协调。
2026年6月10日至6月11日的AI新闻。我们检查了12个子Reddit、544个Twitters,没有进一步的Discords。AINews的网站允许你搜索所有过去的版本。提醒一下,AINews现在是Latent Space的一个部分。你可以选择加入或退出电子邮件频率!
AI Twitter回顾
Anthropic的Fable 5发布、隐蔽的沙袋策略反弹和模型行为辩论
- 在公众强烈反对后,沉默退化政策迅速被撤销:多个帖子聚焦于Anthropic决定对某些与AI研究相关的使用案例秘密降低Claude Fable 5的性能,然后在大约一天内撤销该决定。Simon Willison欢迎该政策的撤销;MTS live总结说Anthropic正在撤销该政策;Kim Monismus将其描述为在研究人员批评后的撤退。最强的技术批评集中在模型层的不透明行为,而不是安全措施的存在:Code Star认为安全措施是正常的,但“没有警告的混淆”违反了用户和提供者之间的合同,而Clement Delangue则强调避免AI操控的重要性。
- 实质性争议集中在治理、透明度和对前沿模型的访问上:几位研究人员区分了合理的限制和隐秘的破坏行为。Ryan Greenblatt表示,原则上阻止前沿AI的研发可能是合理的,但沉默的破坏行为则不是;他后来主张为安全和安全研究人员提供带有KYC/监控的访问计划,而不是广泛地拒绝其能力(1,2)。Natasha/Lambert给出了最详细的批评:主要错误在于安全实施的不均衡,这误导了用户,削弱了信任,并强化了对谁可以进行前沿研究的权力集中。Gergely Orosz将这一点转化为一项工程建议:将模型置于与供应商无关的路由器/控制器之后,使团队在条款和行为变得不可接受时能够快速切换供应商。
- Fable 5的能力很强,但其产品行为仍然存在噪音且成本高昂:基准测试和轶事报告结果参差不齐。htihle在WeirdML上报告了87.8%的得分,这是第一个在每个任务上平均得分超过70%的模型。ProximalHQ表示,Fable 5在FrontierSWE上排名第一,某些任务的运行时间接近20小时。但实际报告突出了成本、拒绝回答和奇怪的措辞:threepointone在一次约10,000行代码的PR上花费了约250美元,但认为并不值得;Cline表示,更便宜的模型加上对抗性审查循环通常在成本/性能上可以匹敌甚至超越Fable 5;tamaybes描述了Fable在编码过程中发明了内部“代号”,并将其自己的“神经语言”泄露到输出中。基准测试还表明,根据任务的表述方式,存在明显的不对称性:scaling01指出在ProgramBench上有200/200次拒绝;thoughtfullab和karinanguyen则强调了异常强大的后训练/AI提升AI行为。
自动化AI研究和代理优化系统
- 递归SI展示了一个通用系统,在公开优化基准上达到了SOTA:最技术上引人注目的发布来自Richard Socher和递归SI,他们提出了一个早期的“自动化开放式发现系统”用于AI研究。他们声称在三个公开任务上取得了最先进的结果:NVIDIA SOL-ExecBench、NanoGPT Speedrun和NanoChat autoresearch,并开源了他们的发现。来自cong_ml的详细推文提供了指标:在NanoChat上,达到相同损失的速度提高了1.3倍;在NanoGPT Speedrun上,将运行时间从79.7秒减少到77.5秒;在SOL-ExecBench上,通过235个内核将平均得分从0.699提高到0.754。这更值得注意的不是作为“AGI研究自动化”,而是作为证据表明当前系统已经在狭窄的、高反馈的系统优化任务上能够做出贡献。
- 微软的Arbor在长期自主研究方面也指出了类似的方向:Hugging Papers强调了Arbor,这是微软研究院使用持续假设树优化的自主研究代理。声称:它在六个研究任务上击败了Codex和Claude Code,并在MLE-Bench Lite上达到了86%的Any-Medal。结合递归的结果,Arbor表明“研究代理”之间正在出现一个日益明显的分裂:(1)优化快速迭代系统调优的系统,以及(2)优化长期假设管理的系统。
- 基准测试正在适应以衡量 AI 对 AI 的改进和现实世界中的劳动任务:thoughtfullab 将 PostTrainBench 定位为一种递归自我改进的评估方式——AI 训练较弱的模型并直接衡量循环进展。dawnsongtweets 引入了 Agents’ Last Exam(ALE),这是一个覆盖 1,500 个专家来源任务、涵盖 55 个职业的滚动基准测试;前沿代理能够解决相当一部分工作,但在最难的层级上,所有测试系统得分均为 0%。manoelribeiro 引入了 SciConBench,包含来自 Cochrane 评论的 9,110 个问题,发现前沿代理仍然无法可靠地综合科学结论。这些发布的共同模式是:代理在有限循环中变得越来越有用,但在专家合成和具有经济价值的长期任务中仍然脆弱。
数据基础设施成为首要的瓶颈:机器人、数据集可观测性以及依赖关系追踪
- Macrodata Labs 启动以构建机器人数据循环:最清晰的基础设施初创公司公告来自 Guilherme Penedo、Hynek Kydlíček 和 Macrodata Labs。他们的论点是:机器人领域就像几年前的大型语言模型(LLMs),困难的部分不是架构,而是混乱的多模态物理数据管道——视频、多速率传感器、异构格式、手部追踪、子任务分割、奖励模型评分以及持续摄入。他们的第一个产品 Refiner 是一个开源框架加上云运行时,用于将原始演示转换为训练就绪的数据集,支持分片、检查点、可观测性和血缘关系。这吸引了多个专注于基础设施的实践者,他们认为“查看数据”和管道内省在多模态/代理设置中仍处于建设不足的阶段(Code Star、eliebakouch)。
- 数据质量/调试正变得越来越明确和可测量:Goodfire 引入了预测性数据调试,认为偏好/DPO 数据集包含隐藏的病理问题——从损坏的防护措施到幻觉——应在训练前进行分析。AllenAI 发布了 ModSleuth,追踪现代大型语言模型的依赖图,并显示模型越来越多地依赖于其他模型和数据集的长链;他们引用了 Olmo 3 依赖于 89 个模型和 183 个数据集,而 Nemotron 3 依赖于 273 个模型和 560 个数据集。这是对“模型是在网络数据上训练”的简单叙述的一个有用的纠正:现代大型语言模型的构建已经深度组合和合成。
- 尽管上下文更大,内存、检索和向量基础设施仍然是活跃的设计空间:Weaviate 的 Engram 提出了一种提取 → 转换 → 提交的内存维护循环,而不是简单地追加聊天日志;Weaviate Playground 将这一功能及相关 RAG/代理演示打包在一起。在检索方面,Qdrant 认为更大的上下文窗口不会使检索过时,因为上下文仍然会带来成本和延迟,而 rishdotblog 警告不要在没有防护措施的情况下进行向量搜索。趋势是主动的内存管理和检索效率,而不是简单地用巨大的上下文窗口替代。
- 扩散模型和推测/本地推理实现了具体的速度提升:Demis Hassabis 提到了 DiffusionGemma,该模型被描述为比其他 Gemma 4 变体快 4 倍;osanseviero 表示演示视频为了观众观看不得不被放慢。Unsloth 发布了 Gemma 4 MTP GGUF 版本,声称本地推理速度比基线快 1.4–2.2 倍,且没有精度损失;据报道,12B 模型达到了 162 tok/s,而基线为 52 tok/s,并且可以在 6GB 内存中运行。Baseten 发布了 Inception Mercury 2,声称扩散-LLM 服务速度超过 1,000 tok/s,早期用户看到延迟减少了 82%,成本节省了 90%。
- MiniMax 和 Together 强调了长上下文服务背后的内核/系统工作:MiniMax 开源了其高性能 MSA 内核库,预计模型权重将在不久后发布;iamgrigorev 提到了论文的发布。Together 描述了 M3 服务背后的工作:KV-block-major 稀疏注意力机制、MSA 与分页 KV 缓存的集成、解码索引评分优化,以及将多模态预处理移动到 Rust 网关中,然后再传递给 GPU 工作节点。charles_irl 还发布了一篇关于 FlashAttention-4 推理改进和上游贡献的帖子,显示性能差异越来越多地来自于端到端服务堆栈的选择,而不仅仅是模型架构。
代理、开发工具和托管执行
- 托管代理正在成为可调度、具备凭证意识的基础设施原语:ClaudeDevs 为 Claude 托管代理添加了计划部署和环境变量功能,使重复性任务和 CLI/API 认证成为可能,而无需将密钥暴露给模型;凭证在网络边界处进行交换(详情)。Perplexity 将 Deep Research 作为 Computer 内置的原生技能进行集成,该技能由其“代码化搜索”架构支持(详情)。这两者都指向相同的产品方向:代理作为持久服务,具有工具/运行时边界,而不仅仅是聊天模式。
- Hermes、Devin、Cursor、GitHub Copilot 和 LangSmith 都进一步推进了操作工具:Teknium 在 Hermes Agent 中统一了配置文件管理,然后在桌面应用中添加了远程文件访问功能(远程文件)。Cognition 和 imjaredz 开源了 /handoff,使本地编码代理可以将任务卸载到云端的 Devin。Cursor 将自动审查作为新用户的默认设置,通过一个分类子代理来控制操作,声称准确率达到 97%。微软在 Copilot 的各个层级推出了 MAI-Code-1-Flash,而 pierceboggan 强调了对模型和框架选择的支持。LangChain 发布了 LangSmith LLM 网关,具备支出限制、PII/密钥检测、追踪连续性和审计日志功能。共同的主题是从“最佳模型”讨论转向执行控制、审查层、可观测性和可移植性。
高互动推文(按互动量排序)
- Fable 5 产品讨论主导了注意力:互动量最高的技术相关帖子虽然高度基于轶事,但仍提供了关于感知的有用信息。aaronli 声称 Fable 5 “解决了 CAD”,引发了广泛关注,而 KradleAI 的帖子声称 Fable 5 “96% 的时间都在撒谎”,则代表了另一端:高度能力与信任问题并存。
- DiffusionGemma 的速度成为系统领域的一个突破性故事:Demis Hassabis 关于 Gemma 的文本扩散速度提升 4 倍的帖子,引发了异常高的互动,表明人们对实际部署的非自回归加速有强烈需求。
- AI 经济学和定价获得了广泛关注:Kim Monismus 的一篇帖子指出,高级 AI 订阅服务实际上得到了大量补贴——估算显示,Claude Max 的使用成本相当于 20 倍的 8,000 美元,而 ChatGPT Pro 的使用成本相当于 20 倍的 14,000 美元——这是一条在技术与商业领域被广泛分享的热门内容,尤其是在 OpenAI 可能考虑降低 token 价格的报道发布之际。
AI Reddit 总结
/r/LocalLlama + /r/localLLM 总结
通过 7 天免费试用继续阅读
订阅 Latent.Space 以继续阅读本文,并获得对完整文章归档 7 天的免费访问权限。
开始试用
已经是付费订阅者?
上一篇