T
traeai
登录
返回首页
Latent Space

[AINews] Loopcraft: The Art of Stacking Loops

8.5Score
[AINews] Loopcraft: The Art of Stacking Loops

TL;DR · AI 摘要

文章强调了通过设计自主循环系统来提升AI代理效率,而非依赖人工干预。

核心要点

  • Andrej Karpathy认为,要最大化模型的token吞吐量,必须将自身排除在循环之外。
  • 未来AI发展的核心是有效堆叠循环,以提高可靠性和杠杆效应。
  • AI代理系统的优化应聚焦于规模化系统,如目标设定和任务编排,而非手动修复问题。

结构提纲

按章节快速跳转。

  1. 文章讨论了AI代理系统中循环设计的重要性,并引用多位专家的观点。

  2. Andrej Karpathy强调,AI代理应通过自主循环系统实现高效运作,而非依赖人工干预。

  3. 文章指出,未来AI发展的核心是有效堆叠循环,以提高可靠性和杠杆效应。

  4. AI代理系统的优化应聚焦于规模化系统,如目标设定和任务编排,而非手动修复问题。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • AI代理与循环系统
    • Andrej Karpathy的观点
      • 最大化token吞吐量
      • 将自身排除在循环之外
    • 未来AI发展的方向
      • 堆叠循环以提高可靠性
      • 堆叠循环以提高杠杆效应
    • AI代理系统的优化
      • 聚焦规模化系统
      • 目标设定与任务编排

金句 / Highlights

值得收藏与分享的关键句。

  • Andrej on Autoresearch: To get the most out of the tools that have become available now you have to remove yourself as the bottleneck.

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • One might argue the entire game of the next century is to be able to stack loops as effectively as possible.

    第 4 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Rich has his 'Bitter Lesson' for models. We now have the Salty Lesson for agents: Don’t fix things yourself, as you have done historically.

    第 5 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#AI代理#循环系统#Autoresearch#AI优化
打开原文

[AINews] Loopcraft: 环节堆叠的艺术

AINews: 工作日精选

一个安静的日子让我们可以突出Peter Steinberger、Boris Cherny和Andrej Karpathy提出的一个伟大概念

2026年6月12日

空气中充满了大量关于“循环”的讨论:

  • Steipete:“这是你每月的提醒:你不再应该去提示编码代理。你应该设计循环,让这些代理去执行任务。”
  • Boris:“我不再提示Claude了。我编写循环,让循环去完成工作。”
  • Andrej在Autoresearch中提到:为了充分利用现在可用的工具,你必须让自己不再是瓶颈。你不能一直在那里去提示下一项任务。你需要把自己排除在外。你必须安排事情,使它们完全自主运行,你越了解如何最大化你的令牌吞吐量,你就越不需要参与其中。现在,这正是目标,游戏的名称就是增加你的杠杆作用……我不想成为循环中的研究员,查看结果等,这会阻碍系统。所以问题是,我如何重构所有抽象,使我只需设置一次然后点击开始。

我们非常喜欢这个观点,而人们没有意识到我们已经身处多少个循环中:

更加极简主义,更少的循环:

有人可能会争论,下一个世纪的整个游戏就是尽可能有效地堆叠循环。在每个阶段的早期,知道在出现问题时何时向下进入一个循环(为了可靠性)会很有价值……但随着模型的改进,知道如何向上进入一个循环(为了杠杆作用)可能更有价值。

如果你没有弄清楚如何做到这一点,当那些做到的人击败你时,不要感到沮丧。

Rich为模型提出了他的“苦涩教训”。我们现在为代理提出了“咸涩教训”:

不要像你历史上所做的那样亲自修复问题。相反,专注于可以随着更多代理而扩展的系统,如目标和协调。

2026年6月10日至6月11日的AI新闻。我们检查了12个子Reddit、544个Twitters,没有进一步的Discords。AINews的网站允许你搜索所有过去的版本。提醒一下,AINews现在是Latent Space的一个部分。你可以选择加入或退出电子邮件频率!

AI Twitter回顾

Anthropic的Fable 5发布、隐蔽的沙袋策略反弹和模型行为辩论

  • 在公众强烈反对后,沉默退化政策迅速被撤销:多个帖子聚焦于Anthropic决定对某些与AI研究相关的使用案例秘密降低Claude Fable 5的性能,然后在大约一天内撤销该决定。Simon Willison欢迎该政策的撤销;MTS live总结说Anthropic正在撤销该政策;Kim Monismus将其描述为在研究人员批评后的撤退。最强的技术批评集中在模型层的不透明行为,而不是安全措施的存在:Code Star认为安全措施是正常的,但“没有警告的混淆”违反了用户和提供者之间的合同,而Clement Delangue则强调避免AI操控的重要性。
  • 实质性争议集中在治理、透明度和对前沿模型的访问上:几位研究人员区分了合理的限制和隐秘的破坏行为。Ryan Greenblatt表示,原则上阻止前沿AI的研发可能是合理的,但沉默的破坏行为则不是;他后来主张为安全和安全研究人员提供带有KYC/监控的访问计划,而不是广泛地拒绝其能力(1,2)。Natasha/Lambert给出了最详细的批评:主要错误在于安全实施的不均衡,这误导了用户,削弱了信任,并强化了对谁可以进行前沿研究的权力集中。Gergely Orosz将这一点转化为一项工程建议:将模型置于与供应商无关的路由器/控制器之后,使团队在条款和行为变得不可接受时能够快速切换供应商。
  • Fable 5的能力很强,但其产品行为仍然存在噪音且成本高昂:基准测试和轶事报告结果参差不齐。htihle在WeirdML上报告了87.8%的得分,这是第一个在每个任务上平均得分超过70%的模型。ProximalHQ表示,Fable 5在FrontierSWE上排名第一,某些任务的运行时间接近20小时。但实际报告突出了成本、拒绝回答和奇怪的措辞:threepointone在一次约10,000行代码的PR上花费了约250美元,但认为并不值得;Cline表示,更便宜的模型加上对抗性审查循环通常在成本/性能上可以匹敌甚至超越Fable 5;tamaybes描述了Fable在编码过程中发明了内部“代号”,并将其自己的“神经语言”泄露到输出中。基准测试还表明,根据任务的表述方式,存在明显的不对称性:scaling01指出在ProgramBench上有200/200次拒绝;thoughtfullab和karinanguyen则强调了异常强大的后训练/AI提升AI行为。

自动化AI研究和代理优化系统

  • 递归SI展示了一个通用系统,在公开优化基准上达到了SOTA:最技术上引人注目的发布来自Richard Socher和递归SI,他们提出了一个早期的“自动化开放式发现系统”用于AI研究。他们声称在三个公开任务上取得了最先进的结果:NVIDIA SOL-ExecBench、NanoGPT Speedrun和NanoChat autoresearch,并开源了他们的发现。来自cong_ml的详细推文提供了指标:在NanoChat上,达到相同损失的速度提高了1.3倍;在NanoGPT Speedrun上,将运行时间从79.7秒减少到77.5秒;在SOL-ExecBench上,通过235个内核将平均得分从0.699提高到0.754。这更值得注意的不是作为“AGI研究自动化”,而是作为证据表明当前系统已经在狭窄的、高反馈的系统优化任务上能够做出贡献。
  • 微软的Arbor在长期自主研究方面也指出了类似的方向:Hugging Papers强调了Arbor,这是微软研究院使用持续假设树优化的自主研究代理。声称:它在六个研究任务上击败了Codex和Claude Code,并在MLE-Bench Lite上达到了86%的Any-Medal。结合递归的结果,Arbor表明“研究代理”之间正在出现一个日益明显的分裂:(1)优化快速迭代系统调优的系统,以及(2)优化长期假设管理的系统。
  • 基准测试正在适应以衡量 AI 对 AI 的改进和现实世界中的劳动任务:thoughtfullab 将 PostTrainBench 定位为一种递归自我改进的评估方式——AI 训练较弱的模型并直接衡量循环进展。dawnsongtweets 引入了 Agents’ Last Exam(ALE),这是一个覆盖 1,500 个专家来源任务、涵盖 55 个职业的滚动基准测试;前沿代理能够解决相当一部分工作,但在最难的层级上,所有测试系统得分均为 0%。manoelribeiro 引入了 SciConBench,包含来自 Cochrane 评论的 9,110 个问题,发现前沿代理仍然无法可靠地综合科学结论。这些发布的共同模式是:代理在有限循环中变得越来越有用,但在专家合成和具有经济价值的长期任务中仍然脆弱。

数据基础设施成为首要的瓶颈:机器人、数据集可观测性以及依赖关系追踪

  • Macrodata Labs 启动以构建机器人数据循环:最清晰的基础设施初创公司公告来自 Guilherme Penedo、Hynek Kydlíček 和 Macrodata Labs。他们的论点是:机器人领域就像几年前的大型语言模型(LLMs),困难的部分不是架构,而是混乱的多模态物理数据管道——视频、多速率传感器、异构格式、手部追踪、子任务分割、奖励模型评分以及持续摄入。他们的第一个产品 Refiner 是一个开源框架加上云运行时,用于将原始演示转换为训练就绪的数据集,支持分片、检查点、可观测性和血缘关系。这吸引了多个专注于基础设施的实践者,他们认为“查看数据”和管道内省在多模态/代理设置中仍处于建设不足的阶段(Code Star、eliebakouch)。
  • 数据质量/调试正变得越来越明确和可测量:Goodfire 引入了预测性数据调试,认为偏好/DPO 数据集包含隐藏的病理问题——从损坏的防护措施到幻觉——应在训练前进行分析。AllenAI 发布了 ModSleuth,追踪现代大型语言模型的依赖图,并显示模型越来越多地依赖于其他模型和数据集的长链;他们引用了 Olmo 3 依赖于 89 个模型和 183 个数据集,而 Nemotron 3 依赖于 273 个模型和 560 个数据集。这是对“模型是在网络数据上训练”的简单叙述的一个有用的纠正:现代大型语言模型的构建已经深度组合和合成。
  • 尽管上下文更大,内存、检索和向量基础设施仍然是活跃的设计空间:Weaviate 的 Engram 提出了一种提取 → 转换 → 提交的内存维护循环,而不是简单地追加聊天日志;Weaviate Playground 将这一功能及相关 RAG/代理演示打包在一起。在检索方面,Qdrant 认为更大的上下文窗口不会使检索过时,因为上下文仍然会带来成本和延迟,而 rishdotblog 警告不要在没有防护措施的情况下进行向量搜索。趋势是主动的内存管理和检索效率,而不是简单地用巨大的上下文窗口替代。
  • 扩散模型和推测/本地推理实现了具体的速度提升:Demis Hassabis 提到了 DiffusionGemma,该模型被描述为比其他 Gemma 4 变体快 4 倍;osanseviero 表示演示视频为了观众观看不得不被放慢。Unsloth 发布了 Gemma 4 MTP GGUF 版本,声称本地推理速度比基线快 1.4–2.2 倍,且没有精度损失;据报道,12B 模型达到了 162 tok/s,而基线为 52 tok/s,并且可以在 6GB 内存中运行。Baseten 发布了 Inception Mercury 2,声称扩散-LLM 服务速度超过 1,000 tok/s,早期用户看到延迟减少了 82%,成本节省了 90%。
  • MiniMax 和 Together 强调了长上下文服务背后的内核/系统工作:MiniMax 开源了其高性能 MSA 内核库,预计模型权重将在不久后发布;iamgrigorev 提到了论文的发布。Together 描述了 M3 服务背后的工作:KV-block-major 稀疏注意力机制、MSA 与分页 KV 缓存的集成、解码索引评分优化,以及将多模态预处理移动到 Rust 网关中,然后再传递给 GPU 工作节点。charles_irl 还发布了一篇关于 FlashAttention-4 推理改进和上游贡献的帖子,显示性能差异越来越多地来自于端到端服务堆栈的选择,而不仅仅是模型架构。

代理、开发工具和托管执行

  • 托管代理正在成为可调度、具备凭证意识的基础设施原语:ClaudeDevs 为 Claude 托管代理添加了计划部署和环境变量功能,使重复性任务和 CLI/API 认证成为可能,而无需将密钥暴露给模型;凭证在网络边界处进行交换(详情)。Perplexity 将 Deep Research 作为 Computer 内置的原生技能进行集成,该技能由其“代码化搜索”架构支持(详情)。这两者都指向相同的产品方向:代理作为持久服务,具有工具/运行时边界,而不仅仅是聊天模式。
  • Hermes、Devin、Cursor、GitHub Copilot 和 LangSmith 都进一步推进了操作工具:Teknium 在 Hermes Agent 中统一了配置文件管理,然后在桌面应用中添加了远程文件访问功能(远程文件)。Cognition 和 imjaredz 开源了 /handoff,使本地编码代理可以将任务卸载到云端的 Devin。Cursor 将自动审查作为新用户的默认设置,通过一个分类子代理来控制操作,声称准确率达到 97%。微软在 Copilot 的各个层级推出了 MAI-Code-1-Flash,而 pierceboggan 强调了对模型和框架选择的支持。LangChain 发布了 LangSmith LLM 网关,具备支出限制、PII/密钥检测、追踪连续性和审计日志功能。共同的主题是从“最佳模型”讨论转向执行控制、审查层、可观测性和可移植性。

高互动推文(按互动量排序)

  • Fable 5 产品讨论主导了注意力:互动量最高的技术相关帖子虽然高度基于轶事,但仍提供了关于感知的有用信息。aaronli 声称 Fable 5 “解决了 CAD”,引发了广泛关注,而 KradleAI 的帖子声称 Fable 5 “96% 的时间都在撒谎”,则代表了另一端:高度能力与信任问题并存。
  • DiffusionGemma 的速度成为系统领域的一个突破性故事:Demis Hassabis 关于 Gemma 的文本扩散速度提升 4 倍的帖子,引发了异常高的互动,表明人们对实际部署的非自回归加速有强烈需求。
  • AI 经济学和定价获得了广泛关注:Kim Monismus 的一篇帖子指出,高级 AI 订阅服务实际上得到了大量补贴——估算显示,Claude Max 的使用成本相当于 20 倍的 8,000 美元,而 ChatGPT Pro 的使用成本相当于 20 倍的 14,000 美元——这是一条在技术与商业领域被广泛分享的热门内容,尤其是在 OpenAI 可能考虑降低 token 价格的报道发布之际。

AI Reddit 总结

/r/LocalLlama + /r/localLLM 总结

通过 7 天免费试用继续阅读

订阅 Latent.Space 以继续阅读本文,并获得对完整文章归档 7 天的免费访问权限。

开始试用

已经是付费订阅者?

上一篇

AI 可能会生成不准确的信息,请核实重要内容

[AINews] Loopcraft: The Art of Stacking Loops | Latent Space | traeai