Vol.119|对话 Macaron AI 创始人 Andrew:下一代模型公司正在从 Agent 产品里长出来?

播客收听
问这期播客
会先在本集摘要、章节、转录和笔记里找答案。
TL;DR · AI 摘要
Mind Lab(Macaron AI)创始人Andrew提出,下一代模型公司正从Agent产品中诞生,通过LoRA强化学习和持续学习技术,在真实场景中让AI Agent不断进化,实现个性化、可交互的长期智能服务。
核心要点
- Mind Lab实现了万亿参数规模的LoRA强化学习,并构建了支持DSA和MTP的LoRA RL基础设施。
- Agent通过文件系统记忆机制和持续学习,能在真实任务中不断优化行为与用户偏好。
- Mind Lab采用‘北坡’策略,从真实用户反馈出发,将产品轨迹反哺模型训练,推动Agent向Personal AGI演进。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- 下一代模型公司从Agent产品中诞生
- 核心技术
- LoRA RL
- DSA/MTP支持
- 万亿参数训练
- 核心能力
- 持续学习
- 文件系统记忆
- 个性化服务
- 发展路径
- 真实场景驱动
- 用户反馈闭环
- Agent to Personal AGI
金句 / Highlights
值得收藏与分享的关键句。
Mind Lab是世界上第一个在万亿参数规模下支持DSA和MTP的LoRA RL infra,标志着Agent训练进入新阶段。
Agent的长期记忆系统通过文件系统持久化保存用户偏好和任务进展,使服务更连续、个性化。
Mind Lab选择‘北坡’路线,从真实任务和用户反馈中训练Agent,而非单纯追求算力极限。
章节
Mind Lab 最近在做什么?
Mind Lab 最近在做什么?
小龙虾之后,Agent 生态发生了哪些变化?
小龙虾之后,Agent 生态发生了哪些变化?
拆解 AI 的记忆系统:为什么一个早期很懂你的 Agent,越来越难用?
拆解 AI 的记忆系统:为什么一个早期很懂你的 Agent,越来越难用?
记忆(Memory)如何让 Agent 个性化服务变得更好
记忆(Memory)如何让 Agent 个性化服务变得更好
解读 MindClaw 的底层架构:为每个人、每个 Agent 训练自己的模型
解读 MindClaw 的底层架构:为每个人、每个 Agent 训练自己的模型
LoRA 强化学习的关键突破:用更低成本,让万亿参数模型持续进化
LoRA 强化学习的关键突破:用更低成本,让万亿参数模型持续进化
Research Pipeline: Mind Lab 的模型研究路线与算法创新
Research Pipeline: Mind Lab 的模型研究路线与算法创新
为什么后训练和 Agent 训练越来越重要
为什么后训练和 Agent 训练越来越重要
Mind Lab 想成为什么样的模型公司
Mind Lab 想成为什么样的模型公司
从真实问题出发设计产品,在用户反馈中持续优化模型
从真实问题出发设计产品,在用户反馈中持续优化模型
从「北坡」登顶珠峰,非典型模型公司的拯救派生长路径
从「北坡」登顶珠峰,非典型模型公司的拯救派生长路径
转录
Mind Lab 最近在做什么?
小龙虾之后,Agent 生态发生了哪些变化?
拆解 AI 的记忆系统为什么一个早期很懂你的 Agent,越来越难用?
记忆(Memory)如何让 Agent 个性化服务变得更好
解读 MindClaw 的底层架构为每个人、每个 Agent 训练自己的模型
LoRA 强化学习的关键突破用更低成本,让万亿参数模型持续进化
Research PipelineMind Lab 的模型研究路线与算法创新
为什么后训练和 Agent 训练越来越重要
Mind Lab 想成为什么样的模型公司
从真实问题出发设计产品,在用户反馈中持续优化模型
从「北坡」登顶珠峰,非典型模型公司的拯救派生长路径
节目笔记
【本期内容】
当 Agent 真正进入真实任务之中,它如何通过后训练、反馈和持续学习,变得越来越会行动、会交互、会解决问题?本期节目,我们邀请到 Mind Lab(Macaron AI)Founder Andrew。最近,Mind Lab 成功实现了万亿参数规模的 LoRA 强化学习,并构建了世界上第一个在万亿参数规模下支持 DSA 和 MTP 的 LoRA RL infra,甚至训练了自己的 Agent Model。
在大模型这座珠穆朗玛峰面前,如果说用资本、算力和预训练去追求极限智能,是资源极其丰富的南坡,那么 Mind Lab 选择在北坡攀登:从真实场景出发,让 Agent 在 Agent Harness、用户交互和真实反馈中获得行动能力,并通过持续学习不断演进。
在探索大模型能力上限的同时,Andrew 更关心的是,如何让 AI 从会聊天的模型,变成真正能进入任务、调用工具、生成交互并持续改进的 Agent Model。不同于过去我们理解的模型公司,Mind Lab 也走向了另一条路:从真实场景出发,把产品里的 Agent 轨迹、交互反馈和后训练经验重新写回模型。
在他的身上,我们也能看到研究者身上最纯粹的狂想,以及工程派面对真实问题时的浪漫信念。
足够前沿,也非常务实的一期访谈,欢迎收听🎧
【嘉宾】
张鹏|极客公园创始人 & 总裁
Andrew|Mind Lab (Macaron AI) Founder
【精彩时刻】
02:18 Mind Lab 最近在做什么?
03:18 小龙虾之后,Agent 生态发生了哪些变化?
08:38 拆解 AI 的记忆系统:为什么一个早期很懂你的 Agent,越来越难用?
11:38 记忆(Memory)如何让 Agent 个性化服务变得更好
27:45 解读 MindClaw 的底层架构:为每个人、每个 Agent 训练自己的模型
40:30 LoRA 强化学习的关键突破:用更低成本,让万亿参数模型持续进化
47:10 Research Pipeline: Mind Lab 的模型研究路线与算法创新
53:16 为什么后训练和 Agent 训练越来越重要
01:02:25 Mind Lab 想成为什么样的模型公司
01:18:03 从真实问题出发设计产品,在用户反馈中持续优化模型
01:25:20 从「北坡」登顶珠峰,非典型模型公司的拯救派生长路径
【名词释义】
- File system based memory:是一种让 AI Agent 将长期信息保存为文件和目录的持久化记忆机制。在这种机制中,模型不会只依赖当前的对话上下文,而是可以把重要信息、任务进展、用户偏好、项目规则、历史结论等写入本地或远程文件系统,并在后续任务中按需读取、更新和引用这些文件。
- LoRA (Low-Rank Adaptation)低秩适应:LoRA 可以理解为挂在大模型旁边的一组「小型适配器」。它不需要重新训练整个大模型,也不会改动大模型原本的全部参数,而是用一小组低秩矩阵,学习模型在某个任务、风格或用户偏好上需要发生的关键变化。
- RL(Reinforcement Learning)强化学习:即一类机器学习法,让模型通过反馈和奖励机制学会更好决策的训练方法。
- LoRA RL:本期提到的 LoRA RL,指的是用 LoRA 这种高效参数更新方式来做强化学习训练,让大模型在较低成本下学习新的行为模式、Agent 能力或用户偏好。
- Long-term memory 长期记忆:是 AI Agent 或大模型应用用于跨会话、跨任务保存和调用信息的持久化记忆能力。它使系统能够在当前上下文窗口之外保存用户偏好、历史任务、项目状态、经验规则和已学习事实,并在后续交互中按需检索和使用这些信息,从而提供更连续、更个性化、更稳定的服务。
- Continue Learning 持续学习:是一种让 AI 模型在不断到来的新数据、新任务或新环境中持续更新能力,同时尽量保留已有知识的机器学习范式。
- Personal AGI:是一种以个人用户为中心的通用智能体系统,能够在长期记忆、个人上下文、工具调用、任务规划和自主执行能力的支持下,持续理解用户目标,并在工作、学习、生活和创造等多个领域,并为用户提供通用智能服务。
【相关内容索引】
- 一个会持续学习的先进 Agent 模型,到底该怎么构建?👉《独家丨美团领投 A 轮, Mindverse 总融资 5000 万美元,打造持续学习的 Agent 模型》
【听友群💬】
如果你喜欢我们的节目,欢迎保存下方二维码,微信扫码加入听友群和主播互动、交流节目听后感受和选题、认识同频小伙伴~(ps:二维码不过期哦✌️)

【关于节目】
「开始连接 LinkStart」是一档由极客公园出品的科技商业播客。在这里,我们会邀请各行各业的嘉宾一起跨界对话、碰撞思想,用科技、商业和人文的视角一起描摹这个时代。
欢迎同步关注「公众号/视频号-极客公园」,第一时间,带你追踪科技热点。
本期编辑:ioki
剪辑:糕糕
运营:ioki
监制:靖宇、xuxu
公众号/视频号:极客公园
