探秘 Claude Code，搞懂 Agent Harness｜对谈来新璐

十字路口Crossing

十字路口Crossing播客2026年5月5日47:45

探秘 Claude Code，搞懂 Agent Harness｜对谈来新璐

9.2Score

播客收听

时长 47:45原播客页面

问这期播客

会先在本集摘要、章节、转录和笔记里找答案。

TL;DR · AI 摘要

Claude Code 源码泄露揭示了 Agent Harness 的三层工程本质：执行层、状态层与治理层；其‘零上下文管理’、auto-dream 记忆机制与 CLI 优先哲学，定义了下一代 Agent 基础设施的设计范式。

核心要点

Agent 上限不由模型智商决定，而由 Harness 的工程深度决定——它像机甲，不提智力但极大扩展能力。
好的 Harness = 好的 context space + 好的 action space + 更少 prompt 控制，需与模型 inference 逻辑自洽。
Claude Code 的 auto-dream 机制（周期性后台重放会话以纠错/合并/更新记忆）代表半结构化记忆的生产级实践。

结构提纲

按章节快速跳转。

§Harness 的本质定位
Harness 是模型之外的全部工程系统，决定 Agent 能力上限，类比为增强人类能力的机甲。
·三层框架拆解
执行层（会跑）、状态层（跑久）、治理层（跑稳），覆盖从单步操作到千Agent协作的全栈需求。
·Claude Code 的关键机制
包括上下文压缩策略、Fork Agent 记忆复用、YAML-first skill/memo 格式、auto-dream 后台记忆迭代。
·CLI 优先与 Unix 虚拟环境
Komputer Blue 构建轻量 JS/WASM 可运行的 Unix-like 环境，替代重型 Linux VM，实现低成本高兼容 Agent 运行时。
›记忆流派对比
结构化（知识图谱）、半结构化（文件+Markdown+auto-dream）、模型内化——后者尚不成熟且绑定供应商。
›行业共识与非共识
CLI is all you need 已成共识；而多数开源框架仍困于 Prompt Graph 流水线，未转向 Agent Native 范式。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Agent Harness 工程范式
- 三层架构
  - 执行层：文件/浏览器/解释器操作
  - 状态层：context 管理 + auto-dream 记忆
  - 治理层：多 Agent 编排与权限控制
- 核心机制
  - Fork Agent 复用 KV cache
  - YAML-first skill/memo 格式
  - CLI 优先 + Unix 虚拟环境（Komputer）
- 设计哲学
  - 更少 prompt control，更多 context/action space
  - Harness 与模型演进正交
  - 记忆应可沉淀、可迭代、可迁移

金句 / Highlights

值得收藏与分享的关键句。

模型以外都是 Harness；Agent 上限由 Harness 决定——它不提升智力，但极大扩展能力。
— 01:52
⬇︎ 下载 PNG 𝕏 分享到 X
好的 Harness 要和模型的 inference 逻辑自洽，和 Agent 模型进步方向正交。
— 26:33
⬇︎ 下载 PNG 𝕏 分享到 X
auto-dream 机制：每隔一天触发后台 Agent 对最近会话做‘重放’，纠错、合并、更新记忆——就像做梦。
— 17:38
⬇︎ 下载 PNG 𝕏 分享到 X
CLI is all you need 已成行业共识；Unix 命令在预训练语料中占比数十亿条，MCP 不到 0.1%，解释了 CLI 的高任务完成率。
— 22:49
⬇︎ 下载 PNG 𝕏 分享到 X
给每个 Agent 一台专用计算机，不等于塞进完整 Linux 虚机；多数任务只需纯数据结构模拟的 KB 级 Unix 环境。
— 13:55
⬇︎ 下载 PNG 𝕏 分享到 X

章节

要点
Agent 上限不由模型智商决定，而由 Harness 的工程深度决定——它像机甲，不提智力但极大扩展能力。
Agent 上限不由模型智商决定，而由 Harness 的工程深度决定——它像机甲，不提智力但极大扩展能力。
要点
好的 Harness = 好的 context space + 好的 action space + 更少 prompt 控制，需与模型 inference 逻辑自洽。
好的 Harness = 好的 context space + 好的 action space + 更少 prompt 控制，需与模型 inference 逻辑自洽。
要点
Claude Code 的 auto-dream 机制（周期性后台重放会话以纠错/合并/更新记忆）代表半结构化记忆的生产级实践。
Claude Code 的 auto-dream 机制（周期性后台重放会话以纠错/合并/更新记忆）代表半结构化记忆的生产级实践。

转录

这期还没有可搜索转录。后续抓到带时间戳的内容后会自动补到这里。

#Agent#Harness#Claude#AI Infrastructure#Memory

节目笔记

🚥 为什么说 Agent 的上限来自 Harness？当我们讨论 Harness 时，我们究竟在讨论什么？

不久前，Claude Code 源代码泄露，许多 Agent Harness 的关键模块得以完整呈现，成了一份极佳的教学标本。而在技术高速变化的红利期，主动理解新技术往往能带来很高的认知增量。

因此，本周「十字路口」邀请到来新璐，一起聊聊 Agent Harness。新璐是 ShareAI 开源社区发起人，他撰写维护的《Learn Claude Code》教程在 GitHub 上获得超过 50k Star。

在本期内容中，我们把 Agent Harness 从概念词拆解成工程语言，介绍它的三层框架：会跑（执行层）→ 跑久（状态层）→ 跑稳（治理层）。同时，我们也梳理了 Claude Code 中值得借鉴的多个机制：更多 context、更少 control 的思路、“零上下文管理”的哲学、长程任务的接力式交接策略，以及让 Agent 越用越聪明的“做梦”式记忆维护与迭代机制等

新璐作为典型的一人公司，刚完成数百万美金融资；他也分享了自己对 OPC 的独特观点，甚至认为“未来只有 0 人公司，没有 1 人公司”，颇具启发。

🎬 我们的视频播客已同步上线于 @Koji杨远骋的视频号、小红书、哔哩哔哩、Youtube 等平台。

📒 文字版已发布于 @十字路口Crossing 公众号。

🟢 [00:49](http://www.xiaoyuzhoufm.com/episode/69f2e83fbb3ffa11e59dec82) 快问快答：年龄、毕业院校、MBTI、星座、一句话介绍公司、融资情况、团队规模、创业前经历

🟢 [01:52](http://www.xiaoyuzhoufm.com/episode/69f2e83fbb3ffa11e59dec82) 模型以外都是 Harness

机甲、大脑、机器人、智商120——Harness 到底是什么

模型以外都是 Harness

Agent 上限由 Harness 决定吗？

模型智商已在 120–170 之间；Agent Harness 像机甲——不提升智力，但极大扩展能力

🟢 [02:47](http://www.xiaoyuzhoufm.com/episode/69f2e83fbb3ffa11e59dec82) GitHub 50k star，是怎么来的？

这个Agent教程，其实不只是写给别人看的——它本来是新璐自己整理的"造 Agent 心法"。

9 个月前动笔，出发点是"把 Claude Code 套网页壳就能得到一个强大 Agent 产品"的简单直觉

开源社区当时流行 LangChain、LangGraph等 prompt pipeline 做法开发“伪Agent”，是一场派系之争——"Prompt Flow-Driven vs Agent Native-Driven"

LangChain 过时了吗？

🟢 [04:02](http://www.xiaoyuzhoufm.com/episode/69f2e83fbb3ffa11e59dec82) Bash is all you need

Claude 推出 Manager Agents 之后，大家还需要自己搭 Harness 吗？

就像 Next.js出现后大家不再关心底层运行原理，两三年后 Agent Harness 也会收敛为开箱即用

但现在是技术周期红利窗口——不懂 Agent Harness，做出来的Agent产品"缺乏灵魂"

今天的 PM 和过去的 PM，指的根本不是同一种人

🟢 [07:04](http://www.xiaoyuzhoufm.com/episode/69f2e83fbb3ffa11e59dec82) Harness 三层拆解

用两周时间、多 Agent 协作，从零写出一个 C 编译器——这个经典案例背后，到底走了哪三层？

第一层：执行能力层 ——文件增删读写、浏览器、语言解释器；配错权限后果是什么？

第二层：上下文与状态层 ——system prompt、skills、memory，以及上下文窗口满了之后 Agent 如何"接力交棒"

第三层：治理与编排层 —— 数百上千 Agents 如何组织协作？测试 Agent 为什么不能同时拥有修改代码的权限？

🟢 [12:05](http://www.xiaoyuzhoufm.com/episode/69f2e83fbb3ffa11e59dec82) KB 的 K 系列Agent工具链

他们公司叫 Komputer Blue，代号KB，目标是构建By Agents & For Agents的整套开源Infra

Komputer：用 TypeScript 重写 Unix 文件系统和 bash，给 Agent 一个"熟悉的生活环境"；支持 WebAssembly 时切换WASM实现；

Kruntime：Agent Runtime 层，提供让人类开发 Agent 的接口，以及Agent 派生 Agent的接口

Kwatch：Agent 观测层，分析 Agent 任务在哪里卡住，反向指导 Agent 设计迭代

Krl：把 Agent 在 Runtime 上沉淀的轨迹数据拿来强化学习或做上下文层的自迭代

🟢 [13:55](http://www.xiaoyuzhoufm.com/episode/69f2e83fbb3ffa11e59dec82) vs. AWS AgentCore、阿里云 AgentBay

云服务厂商当然也想做这一层

K 系列 Agent 工具链的核心理念：在离用户更近的场景运行 Agent，任何能跑 JavaScript 的场景都能用——浏览器、插件、App、Electron、小程序、纯静态网页、全栈 SaaS

差异化：把Claw-Agent的运行时轻量到由纯数据结构模拟的 KB 级Unix虚拟计算机环境，而不是把 Linux 和浏览器全塞进去

新璐认为要让 Agent 工作好的方法是给每个 Agent 一台专用计算机，一般通过虚机提供，但大多 Agent 完成的大部分工作不需要真的 Linux虚机（且成本高昂），像编译器、浏览器这类重工具原本就不该放进给每个 Agent 的虚机环境

🟢 [17:38](http://www.xiaoyuzhoufm.com/episode/69f2e83fbb3ffa11e59dec82) Memory 的流派

完全结构化（知识图谱 + 向量搜索）：精细存储的知识结构，支持 pipeline 知识推理，rule-based，新璐不喜欢

半结构化（Unix Files + Markdown + Agent 驱动更新）：Claude Code 和小龙虾都是这样做的；Claude Code 中的 auto-dream 机制：每隔一天触发后台 Agent 对最近会话做"重放"，纠错、合并、更新记忆——就像做梦

模型内化 —— 距真正生产落地还需要～ 3 年时间，且记忆难批量提取 & 无损转移，容易被单边模型提供商绑定

🟢 [22:49](http://www.xiaoyuzhoufm.com/episode/69f2e83fbb3ffa11e59dec82) 共识与非共识

共识：CLI is all you need——"Bash is all you need" 这句话是新璐 9 个月前写在开源仓库里的标语，现在成了行业共识

非共识：大部分23年 ~ 25年诞生的主流开源 Agent 框架仍在用 PromptPipe + Node Graph的老路线 —— 就像齿轮与传送带编织的流水线

Unix 从 1971 年就存在，LLM预训练语料中 Linux 命令有数十亿条sample；MCP 提出才两年，预训练占比不到 0.1%——这解释了为什么 CLI 工具的任务完成率比 MCP 高，并且 shell 具备对CLI命令的可组合性 & 二次编程空间

🟢 [26:33](http://www.xiaoyuzhoufm.com/episode/69f2e83fbb3ffa11e59dec82) Claude Code 源码泄露：最大的惊喜是什么

让所有人看到了一件事：这家公司在"上下文管理"上做了多少别人没有做的工程工作

上下文压缩策略：工具 output 何时删、窗口满到什么阈值开始交接、下一个 Agent 初始化时加载什么

Fork Agent 机制：每轮结束触发 turn stop hook，Fork 一个 Agent 复用 KV cache 做记忆更新

记忆文件格式和 skill 保持同一套哲学：前三行 YAML，先读 description 而非全文

新璐的结论："好的 Harness 要和模型的inference逻辑自洽，和Agent模型进步方向正交"

🟢 [34:05](http://www.xiaoyuzhoufm.com/episode/69f2e83fbb3ffa11e59dec82) 好 Harness 的标准

不好的：随意裁剪上下文，导致 KV cache 频繁失效，重计算开销

不好的：用 Prompt Graph硬控每一步决策——模型越强越被束缚

好的公式：好的context space + 好的action space + less prompt control

Anthropic 从25年初率先从问答模型转向 Agent 模型训练，领先其他厂商半年

🟢 [38:52](http://www.xiaoyuzhoufm.com/episode/69f2e83fbb3ffa11e59dec82) 新璐看好的三个创业方向

第一：Agent Harness工具链（新璐自己在做）

第二：Agent 组网——不是给 Agent 发 IM/Mail，而是混合云端/端侧的全设备组网；现有 Tailscale 不够 Agent Native，需要高通量上下文交换，以及更多控制能力

第三：Agent模型集约训练、推理基础设施——Tinker（Thinking Machines Lab，OpenAI 前 CTO 创业方向）的路线：集约化高效训练 + LoRA 热插拔推理，让更多企业 & 个人都能以较低成本获得个性化且更适合各自任务场景的Agent模型

🟢 [44:09](http://www.xiaoyuzhoufm.com/episode/69f2e83fbb3ffa11e59dec82) Agent 未来暴论

"我觉得以后很多的公司都是理财产品 —— 由有经验的人类 Team搭建这些公司、甚至由AI直接生成公司，然后自运转"

阶段：单 Agent → Agent 蜂群 → Agent 自管理 & 协调更多 Agent → Agent 开始创造、发明

OPC “1人公司“不本质， 0PC “0人公司”是未来趋势

真格基金和十字路口的 Token Grant 资助的 YoYo Agent

未来的画面：从口袋里掏出一张卡，"这张卡里跑了 5 个由Agent组成的公司，每年给我创造几十亿收入"

欢迎订阅「十字路口」：

🚦 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会。

🚦 十字路口是乔布斯对苹果公司的一个比喻，形容它站在科技与人文的十字路口，伟大的产品往往诞生在这里。AI 正在给各行各业带来改变，我们寻找、访谈和凝聚新一代 AI 创业者和 AI 时代的积极行动者，和他们一起，探索和拥抱新变化，新的可能性。

👦🏻 主播 Koji：我创办了十字路口，发起了 AI Hacker House 这个新一代 AI 创业者的社群空间，在真格基金担任 Venture Partner（投资合伙人）。我相信科技尤其是 AI 是我们这一代人最大的价值创造机遇。Koji 的即刻，Koji 的网站

👧🏻 主播 Ronghui：我联合创办了十字路口，在美元 VC 工作过，也做过五年的硅谷驻站记者，关注科技发展和商业故事，欢迎大家找我聊天，和我交流。Ronghui 的即刻

探秘 Claude Code，搞懂 Agent Harness｜对谈来新璐

播客收听

问这期播客

TL;DR · AI 摘要

核心要点

结构提纲

思维导图

金句 / Highlights

章节

Agent 上限不由模型智商决定，而由 Harness 的工程深度决定——它像机甲，不提智力但极大扩展能力。

好的 Harness = 好的 context space + 好的 action space + 更少 prompt 控制，需与模型 inference 逻辑自洽。

Claude Code 的 auto-dream 机制（周期性后台重放会话以纠错/合并/更新记忆）代表半结构化记忆的生产级实践。

转录

节目笔记

欢迎订阅「十字路口」：