T
traeai
登录
返回首页
Latent Space

[AINews] 创始人与前向部署工程师

5.5Score
[AINews] 创始人与前向部署工程师

TL;DR · AI 摘要

Anthropic 推出 Claude Opus 4.8,在多轮评估中表现‘小幅提升但非主导’,尤其在文档解析准确性上退步;平台新增中途系统指令支持,但 API 定价仍受诟病;Hugging Face 揭示多轮 RL 训练中因 re-tokenization 导致梯度失效的隐蔽问题。

核心要点

  • Opus 4.8 在 CursorBench 效率更高,但相比 4.7 在内容忠实性/图表解析上略有退步
  • 新增中途系统指令功能,避免 prompt cache 破坏,利于长时 Agent 会话管理
  • Hugging Face 指出多轮工具调用 RL 训练中存在 re-tokenization 破坏梯度传播的隐蔽 Bug

结构提纲

按章节快速跳转。

  1. 介绍 Anthropic 近期融资新闻,并预告 AIE 的 Forward Deployed Engineer 和 Founders 竞赛项目。

  2. §Claude Opus 4.8 发布与评估反馈

    汇总多个独立评测对 Opus 4.8 的综合评价,强调其为质量改进而非基准突破型版本。

  3. 具体列出不同团队在前端测试、文档解析、表格布局等任务上的实测差异与误差范围。

  4. 说明中途系统指令更新带来的工程价值,以及 API 定价问题引发的用户不满和替代选择倾向。

  5. 聚焦 Hugging Face 报告揭示的多轮强化学习训练中因 re-tokenization 导致的梯度失效问题。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Claude Opus 4.8 发布与 Agent 训练挑战
    • 模型发布与评估
      • 多评测共识:小幅提升,非主导性突破
      • 关键退步:文档解析中的内容忠实性 & 图表识别
    • 平台能力增强
      • 中途系统指令支持(不破坏 prompt cache)
      • 权威 mid-conversation role 更新机制
    • 工程实践挑战
      • API 定价争议:用户转向 GPT-5.5 因经济性更优
      • RL 训练隐性 Bug:re-tokenization 破坏梯度传播

金句 / Highlights

值得收藏与分享的关键句。

  • Opus 4.8 在 CursorBench 中表现更高效,但在内容忠实性与图表解析上相较 4.7 出现轻微退步,误差范围内可接受。

    第 2 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Anthropic 新增 mid-conversation system instructions 功能,允许在对话中动态更新系统提示而无需重置 prompt cache。

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Hugging Face 深度分析指出:在 tool-using 多轮 RL 训练中,re-tokenizing 更新后的对话会导致 tokenization 变化,从而破坏梯度传播。

    第 4 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#Anthropic#RL#Agent#API#Benchmark
打开原文

标题:[AINews] 创始人与前线部署工程师

原文链接:https://www.latent.space/p/ainews-founders-and-forward-deployed 发布时间:2026-05-30T01:57:15+00:00

Markdown 内容: 大多数人仍在消化昨日发布的 关于 Anthropic 的重大新闻

我们借此机会向全球顶尖的 AI 前线部署工程师(FDE)发起征集,参与 AIE 新设的“前线部署工程师”计划——该计划效仿了 OpenAI DeployCoAnthropic DeployCo 所推行的类似举措:

Image 1

同时,AIE 还推出了全新的“创始人计划”,我们将以 YCombinator 的 Garry Tan 和 Howie Lu 主办的 $1000 万美元级 Hyperagent 竞赛为范本,打造一场由 YCombinator 支持、对标“Startup Battlefield”的竞争性路演赛事。如果你对此感兴趣,请立即报名(并预订酒店!),获取详细信息。

Image 2

AI 新闻(2026 年 5 月 28 日–5 月 29 日)。我们共查阅了 12 个 Reddit 论坛、544 条 Twitter 推文,未再检索其他 Discord 社区。AINews 官网支持搜索所有历史期数。提醒一下,AINews 已成为 Latent Space 的一个栏目。你可选择订阅或退订不同频率的邮件推送!

Claude Opus 4.8 发布、基准测试摩擦与 API 易用性

  • Opus 4.8 在嘈杂且观点不一的评估环境中落地:多个独立评测平台得出结论——“小幅提升,但非主导性进步”。@arena 推出了超过 200 项前端/代码类测试,将 Opus 4.8 与先前版本的 Opus、Gemini 及 GLM 进行对比;@theo 报告称 CursorBench 测试显示其效率更高,但误差范围内略逊于 4.7 版本;@jerryjliu0@llama_index 发现其在表格/布局解析上略有提升,但在文档解析中出现内容忠实度与图表准确性方面的退步;@scaling01 指出其在 ALE-Bench 上无进展,并另指出 LisanBench 中存在有趣的失败模式。积极方面,@jeremyphoward 发现 4.8 在编程任务中比 4.7/GPT-5.5 更少“过度自主”,更偏向协作;@leo_linsky 称其相比 Anthropic 以往发布的产品,是一次切实可见的改进。
  • Anthropic 同时发布了若干实用的平台级更新@ClaudeDevs 宣布实现“对话中段系统指令”功能,而无需破坏提示缓存,还支持权威性的对话中段系统角色更新——这对长时运行的智能体会话及成本控制至关重要。但定价问题仍是主要争议点:@jeremyphoward 认为 Anthropic 在 API 可负担性方面投入甚少,部分用户转而偏好 GPT-5.5,因其订阅与 API 经济模型更易解释。总体而言,4.8 看似是一次面向真实场景的、显著提升用户体验的版本迭代,而非一次彻底的基准重置。

智能体工具链、多轮强化学习缺陷及其背后的基础设施

  • 一种细微但关键的强化学习失效模式被明确指出@ClementDelangue 引用了 Hugging Face 的深度分析,揭示为何众多依赖工具调用、多轮交互的强化学习训练循环往往“无声崩溃”。核心问题在于:解码模型输出 → 解析工具调用 → 重新分词更新后的对话序列,这一过程可能改变分词结果,导致梯度被施加于模型从未实际采样的序列之上。提出的解决方案是严格遵循 “Token-In, Token-Out” 规则:绝不重新编码已采样令牌;跨轮次维持单一令牌缓冲区。@johnschulman2 进一步强调,渲染器作为消息与令牌之间的基础架构层,其失效模式涵盖训练/测试不一致、缓存低效以及提示注入风险等多个层面。
  • 测试框架设计正逐渐成为一门独立的优化学科@omarsar0 提出了关于 有效反馈计算(Effective Feedback Compute, EFC) 的研究工作,指出单纯依靠原始 token 数或工具调用次数难以准确解释智能体的成功程度,而 EFC 可达到高达 0.99 的 R² 值,表明测试框架的质量比粗略的活动指标更为关键。这与诸如 @LangChain 等产品化调优实践相吻合——其 Deep Agents v0.6测试框架配置(harness profiles) 提升为第一优先级,使 Qwen/Kimi/DeepSeek 等模型在 相比前沿 API 降低 20 倍以上成本 的前提下仍能实现优异性能;@hwchase17 则明确指出“不同模型需要不同的提示词/工具”。@vllm_project 推出了 原生权重同步 API 并改进了异步强化学习中的暂停/恢复机制,随后又新增了 fastokens,一种基于 Rust 的 BPE 分词器,旨在缓解长上下文/智能体任务中 CPU 分词瓶颈问题。
  • 关于“单智能体 vs 多智能体”的争论正转向抽象层是否真正带来价值@OfirPress 认为当前多智能体系统大多只是速度提升,并未真正解锁新能力;@scaling01 则持相反观点,预期群体式训练将催生更优的规划能力与类超级智能行为。无论哪种立场,实际趋势已十分清晰:越来越多团队正围绕 智能体可观测性、追踪日志及持续改进循环 构建系统,例如 @Vtrivedy10 在利用生产环境追踪数据进行监督微调/蒸馏以及长期连续学习方面的探索。

开源模型、本地 AI 与开源工具链日益收紧

  • 本地优先与开源权重的势头持续上升@LangChain 表示,截至 2026 年 4 月,每 3 家 AI 团队中就有 1 家运行了开源权重模型,较九个月前的 1/5 显著增长;@EpochAIResearch 预估当前开源权重模型与前沿闭源模型之间约存在 四个月的差距。在工具链层面,@ggerganov 推出 llama.app,为 llama.cpp 提供官方站点、统一安装程序及单一 llama 入口,以简化本地部署并促进第三方智能体集成;@ollama 宣布推出 OpenJarvis,作为一款基于 Ollama 的本地优先个人 AI,明确呼应斯坦福大学/Hazy 实验室提出的“每瓦特智能”理念。
  • 开源基础设施正逐步向企业级形态演进@ClementDelangue 指出,目前 Hugging Face 上约 50% 的模型与数据集已设为私有,这一比例随 HF 存储/桶服务的推广而持续上升;这有力修正了“Hugging Face 仅是公共开源基础设施”的刻板印象。@abidlabs 展示了 Hugging Face Jobs 正逐步取代 GitHub Runner,用于 CPU/无服务器 GPU CI 流程;@DSPyOSS@dbreunig 等人则在即将发布的 4.0 版本前,重新设计了 DSPy 文档与首页,聚焦于引导用户快速接入可编程 AI 系统,而非仅限于提示工程。
  • 许可协议与开放程度正成为关键战略杠杆@kimmonismus 指出,NVIDIA 已将其四大开源模型系列迁移至 Linux 基金会 OpenMDW-1.1 标准,从而减少权重/代码/文档/数据之间的法律碎片化问题。同时,新型宽松型数据发布也至关重要:@keshigeyan 推出 GPIC——一个包含 1 亿对图像-文本对 的宽松许可图像语料库,外加 100 万对基准数据,专为视觉生成任务设计,并明确支持科研与商业用途。

谷歌 / OpenAI 产品界面扩展:托管智能体、Gemini Spark/Omni 与 Windows 上的 Codex

  • 谷歌正将“托管智能体”栈从 API 扩展至面向消费者的完整产品@_philschmid 展示了 Gemini API 中的托管智能体功能:通过一次 API 调用即可创建一个沙箱化的 Linux 环境,支持代码执行、网络访问及文件 I/O。在消费端,@GeminiApp 向美国 AI Ultra 订阅用户推出了 Gemini Spark,作为一款 7×24 小时全天候个人智能体,可在用户数字生态中按指令自主运行。谷歌还持续推进 Gemini Omni 多模态生成与编辑演示(示例产品专题),并宣布推出 Google Flow Agent,专为视频/影视制作等创意工作流提供支持(专题)。
  • OpenAI 的 Codex 正逐步演变为持久化的远程开发操作员@OpenAI@OpenAIDevs 新增了 Windows 上的计算机使用能力,包括通过 ChatGPT 移动端远程操控;后续 UX 改进还包括为后台智能体引入稳定头像标识及跨历史对话内容搜索功能(@OpenAIDevs);@reach_vb 总结了 Codex 在 Windows 控制、移动端远程访问及配置/任务统计等方面的更新。此外,OpenAI 还将 gpt-5.5 instant 更新为增强 奉承倾向抑制、事实准确性及多语言表现力 的版本(依据 @michpokrass)。
  • 这一切都指向更垂直整合的代理栈(agent stack):模型 + 框架(harness)+ 沙箱(sandbox)+ 用户界面(UI)+ 远程控制 + 定价/配额管理。Google 正在放宽 Gemini 的配额限制(@joshwoodward);OpenAI 正在扩展 Codex 的操作界面;Cursor 新增了 自动审查模式,采用子代理审批路由机制(推文)。其共同模式是:少一些“聊天机器人”,多一些 具备策略与记忆管理的托管执行环境

值得关注的研究与系统论文

  • 搜索、检索与记忆@TheTuringPost 推出了哈佛/麻省理工联合提出的 双向进化搜索(Bidirectional Evolutionary Search, BES),结合正向搜索与反向分解,并引入进化算子;实验显示,在 MuSiQue 数据集上,Llama-3.2-3B-Instruct 的得分从 4.0% 提升至 7.0%。在检索方面,@_reachsumit 提出 潜在词项(Latent Terms),表明可通过稀疏 BM25 可用特征从冻结的密集检索器中提取 SAEs 特征。@topk_io 开源了 Iso-ModernColBERT,以实现更高效的后期交互推理。
  • 持续学习与信念/状态管理@HuggingPapers 总结了 BeliefTrack,声称优化后的信念状态管理可将长程推理失败率降低 70% 以上@AndrewLampinen 指出,持续学习领域过度聚焦于干扰问题,而忽视了正向迁移;@victor207755822 发布了第二篇 DeliAutoResearch SKILL 论文,聚焦自迭代与持续学习(CL)。
  • 多模态/世界模型/机器人学:NVIDIA 相关研究包括 γ-World——一种每秒可生成 24 帧的生成式多智能体世界模型(推文),以及 minWM——一个实时交互式视频世界模型框架(推文)。在机器人学领域,@_akhaliq 分享了 Qwen-VLA@inventorOli 则演示了 Robostral 在语言理解与操作能力上的改进。对于始终在线的主动型代理,@dair_ai 提出了一种替代 LLM 唤醒决策的新方案:使用一个 220MiB 的时序图编码器,在运行速度提升 4–83 倍的同时,平均 F1 得分提升 +16.7

高互动度热门推文

  • Google / 消费级代理@GeminiApp on Spark 向美国地区的 AI Ultra 用户推出了其常驻个人代理功能。
  • llama.cpp UX里程碑@ggerganov 推出 llama.app,提供统一安装器与本地 AI 的 CLI 入口点。
  • HF / 强化学习正确性@ClementDelangue 放大了关于多轮强化学习(RL)中工具调用的 “输入 token,输出 token” 警告。
  • 开放 vs 封闭模型的时间差距@EpochAIResearch 预估开放权重模型目前落后前沿模型约 4 个月
  • [StepFun 3.7 Flash](https://www.reddit.com/r/LocalLLaMA/comments/1tqloii/stepfun_37_flash/)(活跃度:637):StepFun 发布了 [Step 3.7 Flash](https://static.stepfun.com/blog/step-3.7-flash/),一款多模态 MoE 模型,总参数量达 `196B`,激活参数为 `11B`,内置 `1.8B` ViT,主打高吞吐量代理工作流,最高可达 `400 TPS`,并宣称可在仅需 ~`128GB` RAM 的设备上本地运行。 报告的基准测试结果显示,该模型在同类“闪存级/本地模型”中表现异常强劲:SWE-Bench Pro 达到 56.26%,DeepSearchQA F1 为 92.82%,HLE with tools 为 47.2,并在 Terminal-Bench、Toolathlon、ClawEval 等其他代理与工具使用任务上显著优于 Step 3.5 Flash。模型原始文件已在 Hugging Face 上提供,支持 BF16、FP8、NVFP4 和 GGUF 格式:
  • BF16
  • FP8
  • NVFP4
  • GGUF

同时,已提交 day-0 llama.cpp 支持 PR(#23845),相关 MTP 工作也在 llama.cpp#23274 中推进。评论者普遍认为该模型技术上颇为奇特:其隐藏层/思考轨迹被描述为近乎混乱,但最终答案却能实现 _“完美”_ 效果,且性能可媲美参数量超过 1TB 的大型模型;有用户指出,此前 Step 3.5 存在的 _“无限思考”_ 问题似乎已得到修复。本地部署方面,尤其受到配备 4×3090 类型显卡用户的谨慎热捧,同时亦对 StepFun 将 llama.cpp 支持上游化(而非仅维护分支)表示赞赏。

  • StepFun 在 Hugging Face 上发布了多个 Step-3.7-Flash 检查点:BF16Step-3.7-Flash)、FP8Step-3.7-Flash-FP8)、NVFP4Step-3.7-Flash-NVFP4)以及 GGUFStep-3.7-Flash-GGUF)。有用户报告称,此前 Step 3.5 Flash 版本中出现的“无限思考”问题已得到修复,使得 3.7 版本更易使用,尽管其仍存在一种略显奇特的中间推理风格。
  • StepFun 已通过上游 PR 实现了对 llama.cpp 的 day-0 支持:ggml-org/llama.cpp#23845,这与 Step 3.5 所采用的分支支持方式形成对比。此外,社区还提交了一个关于 MTP 支持的独立 PR:ggml-org/llama.cpp#23274,但评论者指出该 PR 需要针对 Step 3.7 和当前 master 分支进行更新。
  • vLLM 夜间测试在 2x Pro 6k 硬件上运行 NVFP4 检查点,并以 64 并发浅层上下文请求进行测试,达到了约 2200 tok/s 的吞吐量。所使用的配置包括 tensor-parallel-size 2--enable-expert-parallel--quantization modelopt--kv-cache-dtype fp8--reasoning-parser step3p5 以及 StepFun 工具调用解析;vLLM 报告的 GPU KV 缓存大小1,667,645 个 token最大并发度6.36x(对应每请求 262,144 个 token)。

AI 可能会生成不准确的信息,请核实重要内容