#569. 深入 xAI：三个月打造 Grok Imagine、视频生成与世界模型之争，以及视频智能体

Q: 音视频联合生成挑战

探讨音频处理难点及音视频对齐问题。

跨国串门儿计划

跨国串门儿计划播客2026年6月3日1:29:05

#569. 深入 xAI：三个月打造 Grok Imagine、视频生成与世界模型之争，以及视频智能体

8.8Score

播客收听

时长 1:29:05原播客页面

问这期播客

会先在本集摘要、章节、转录和笔记里找答案。

TL;DR · AI 摘要

前Nvidia研究员解析xAI如何三个月打造Grok Imagine，揭示视频生成模型的训练链路、世界模型定义及Video Agent未来趋势。

核心要点

xAI在三个月内从零构建出Grok Imagine 0.9，关键在于人才密度、高效infra和低沟通成本。
视频模型的进步很大程度上源于语言模型的发展，而非单纯的视频diffusion技术。
世界模型被定义为'实时、可交互、长时程的视频'，未来Video Agent将整合多种工具生成生产级内容。

结构提纲

按章节快速跳转。

§引言
介绍嘉宾Ethan He背景及节目内容概览。
·xAI快速开发秘辛
解析xAI三个月打造Grok Imagine的关键因素。
·视频模型训练链路
详解从数据获取到扩散Transformer的完整训练流程。
·世界模型与生成式UI
阐述世界模型的定义及其在交互系统中的应用。
·音视频联合生成挑战
探讨音频处理难点及音视频对齐问题。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

深入xAI技术
- Grok Imagine开发
  - 三个月速成秘诀
- 视频模型训练
  - 数据与架构
- 世界模型
  - 实时交互特性

金句 / Highlights

值得收藏与分享的关键句。

模型质量提升的真相：很多突破来自数据和训练pipeline里的小bug。
— 第8段
⬇︎ 下载 PNG 𝕏 分享到 X
视频模型的很多进步，其实来自语言模型，而不是视频diffusion本身。
— 多处提及
⬇︎ 下载 PNG 𝕏 分享到 X
World Model就是‘实时、可交互、长时程的视频’。
— 第43段
⬇︎ 下载 PNG 𝕏 分享到 X

章节

开场 & 播客简介
开场 & 播客简介
嘉宾登场：Ethan He 与 Latent Space 社区的缘起
嘉宾登场：Ethan He 与 Latent Space 社区的缘起
为什么离开 Nvidia：视频模型也有 scaling law，需要更大算力
为什么离开 Nvidia：视频模型也有 scaling law，需要更大算力
xAI 从零起步：三个月做出 Grok Imagine 0.9
xAI 从零起步：三个月做出 Grok Imagine 0.9
快速迭代的秘密：人才、infra、compute 与低沟通成本
快速迭代的秘密：人才、infra、compute 与低沟通成本
模型质量提升的真相：很多突破来自数据和训练 pipeline 里的小 bug
模型质量提升的真相：很多突破来自数据和训练 pipeline 里的小 bug
Coding model 如何改变研究节奏：代码更快，compute 再次成为瓶颈
Coding model 如何改变研究节奏：代码更快，compute 再次成为瓶颈
高压研发文化：算力昂贵，但这是一场马拉松
高压研发文化：算力昂贵，但这是一场马拉松
为什么做视频模型之前，通常要先做图像模型
为什么做视频模型之前，通常要先做图像模型
数据从哪里来：人工详细标注与 VLM 生成 synthetic caption
数据从哪里来：人工详细标注与 VLM 生成 synthetic caption
训练视频模型为什么既需要配对数据，也需要无标签数据
训练视频模型为什么既需要配对数据，也需要无标签数据
VAE / tokenizer：为什么不能直接在像素上训练
VAE / tokenizer：为什么不能直接在像素上训练

转录

开场 & 播客简介

嘉宾登场Ethan He 与 Latent Space 社区的缘起

为什么离开 Nvidia视频模型也有 scaling law，需要更大算力

xAI 从零起步三个月做出 Grok Imagine 0.9

快速迭代的秘密人才、infra、compute 与低沟通成本

模型质量提升的真相很多突破来自数据和训练 pipeline 里的小 bug

Coding model 如何改变研究节奏代码更快，compute 再次成为瓶颈

高压研发文化算力昂贵，但这是一场马拉松

为什么做视频模型之前，通常要先做图像模型

数据从哪里来人工详细标注与 VLM 生成 synthetic caption

训练视频模型为什么既需要配对数据，也需要无标签数据

VAE / tokenizer为什么不能直接在像素上训练

Diffusion transformer从噪声一步步去噪生成图像和视频

图像模型如何 bootstrap 视频模型语言与图像连接更密集

视频压缩路线逐帧压缩 vs 时间维度压缩

为什么不用 MP4 token 直接训练latent space 必须对模型友好

实时性的代价时间压缩节省 context，但会引入响应延迟

Flipbook像浏览器一样探索模型想象出的网页

Generative UI从用户意图直接到像素，而不是先写代码再渲染

Diffusion 前端，确定性后端未来界面可能如何被重构

人机交互的带宽人类用语音输出，用视觉输入

NeuroOS用视频模型模拟操作系统和游戏

从过拟合现有界面，到想象全新交互系统

为什么视频模型能生成训练集中不存在的超自然内容

视频模型到底有多贵训练成本接近中等规模 LLM

被低估的成本视频存储、特征存储、IO 和 egress

训练规模数十万亿视觉 token、百亿级 active 参数

推理端加速step distillation 如何把一百步变成几步

Consistency model、GAN 与少步生成的关系

Grok Imagine 0.9大规模音视频联合生成模型

音频为什么难speech 更离散，music 更连续

音视频对齐模型必须理解每一秒声音和画面的关系

时间感为什么 LLM 本身并不真正感知时间

什么是 world model实时、可交互、长时程的视频

交互性键盘、鼠标、语音都可以成为输入模态

实时性游戏需要毫秒级响应，数字人也要接近两百毫秒

长时程世界模型不能只生成几秒，而要持续几分钟甚至几小时

视频延展通往长时程 world model 的第一步

长 context 的挑战五秒视频就可能有五六万 token

为什么用户喜欢视频延展它是通往最终目标的中间产品

长视频里的冗余不是所有历史都需要一直放进 context

Reference video用角色、物体、场景作为生成条件

为什么 reference 是一种“作弊”，也是一种重要机制

FramePack 与动态 context selection：离当前越远，信息越压缩

LLM 与视频模型共享的问题context pruning 目前仍高度依赖 heuristic

Continual learning 的可能突破让模型自己管理上下文

人类注意力的启发不是记住一切，而是动态拉取相关信息

xAI 被低估的地方move fast、build、宏大目标和 first principles

如何倒推三个月目标从数据、训练、人工标注、GPU 周转时间拆解

Elon Musk 的工作方式非常 hands-on，直接给反馈

Grok Voice实时语音体验、打断能力和车载场景

生成式视频安全水印、下架和社交平台治理

SynthID 的局限论文公开后，水印也可能被反向工程

AI 生成内容越来越难识别从看手指，到看逻辑是否成立

核心判断视觉智能很大程度来自语言模型

Prompt rewriter视频模型背后的“大脑”

为什么视频 diffusion model 很“字面”：用户说“一只猫”，它可能只生成一只不会动的猫

GPT Image 类模型为什么要“想几分钟”时间花在推理、重写 prompt 和组织内容上

不同架构路线独立 LLM + diffusion、omni model、离散图像 token

生成—理解—再生成omni model 可能如何迭代优化图像

Prompt rewriter 与 diffusion head 不是一回事，但语言侧都在贡献智能

不需要 joint training，光重写 prompt 就能显著提高画面质量

Video Agent 的愿景像人类创作者一样调用工具、编辑、迭代

Grok Imagine Agent beta从视频生成走向视频创作工作流

为什么“生成一分钟视频”是 Agent 任务，而不是单次视频模型任务

从 Copilot 到 Claude Code视频创作也会经历 Agent 化

速度、thinking budget 与 inference infra

Video Agent 的真正价值不是模型到头了，而是 harness 和工具链解锁新能力

AI 模型更懂 AI 模型未来会有模型专门负责 prompt 和调度生成模型

为什么确定性工具仍然重要字幕、排版、精准编辑不必全靠视频模型

Ethan 的时间判断年底 Video Agent 会成为大热点

Production grade 视频一旦可用于广告和展示，预算会指数级增长

World model 不一定只服务机器人，但机器人会自然成为 AI 可调用的工具

Physical AI 也许不需要先在真实世界解决，可以先被强视频模型解决

为什么离开 xAI想做公司优先级之外的研究，尤其是语言模型方向

视频模型的瓶颈，正在转向语言模型和 Agent

未来一年关注什么模型感知并管理自己的 context

Context awareness模型应该知道自己快到上下文上限了

Context addition / removal / compaction：今天由 harness 做，未来可能被模型吸收

Self-modifying harness模型像程序一样，在 test time 给自己编程

职业路径从 ResNet 时代的视觉研究，到 FAIR、Cosmos、MoE、xAI

为什么跨方向并没有想象中困难训练大模型的原则高度相通

收尾xAI 背后还有很多未被讲清楚的层次

#AI#视频生成#世界模型#深度学习

节目笔记

📝 本期播客简介

本期我们克隆了：Latent Space: Inside xAI: Building Grok Imagine in 3 Months, Videogen vs World Models, and Video Agents— Ethan He

原内容更新时间：2026-06-01

本期节目是一场关于视频生成、世界模型和 Video Agent 的高密度技术访谈。嘉宾 Ethan He 曾在 Nvidia 参与 Cosmos world model，后来加入 xAI，从零参与 Grok Imagine、音视频联合生成、reference video、视频延展和 world model 相关工作。他在节目中复盘了 xAI 如何在短短三个月里，从没有基础设施、没有数据、没有模型的状态，快速做出 Grok Imagine 0.9；也详细解释了视频模型从数据、caption、VAE、diffusion transformer 到 distillation 的完整训练链路。

更重要的是，Ethan 提出了几个非常有判断力的观点：视频模型的很多进步，其实来自语言模型，而不是视频 diffusion 本身；world model 在他看来就是“实时、可交互、长时程的视频”；未来的 Video Agent 会像人类创作者一样，调用视频模型、图像编辑器、FFmpeg 和各种确定性工具，迭代生成真正可用于广告、创作和生产环境的视频内容。这期不仅适合想理解视频生成技术路线的人，也适合想提前看懂 AI 交互界面、生成式媒体和 Agent 未来趋势的听众。

👨‍💻 本期嘉宾

Ethan He，曾在 Nvidia 参与 Cosmos world model 和 Megatron-LM MoE 等工作，后加入 xAI，参与 Grok Imagine、视频生成、音视频联合生成、reference video、视频延展和 world model 相关研发。他的研究经历横跨计算机视觉、自监督学习、大规模 MoE、视频 diffusion、world model 和 LLM Agent。

⏱️ 时间戳

00:00 开场 & 播客简介

从 Cosmos 到 xAI：三个月做出 Grok Imagine

02:42 嘉宾登场：Ethan He 与 Latent Space 社区的缘起

04:14 为什么离开 Nvidia：视频模型也有 scaling law，需要更大算力

05:43 xAI 从零起步：三个月做出 Grok Imagine 0.9

06:15 快速迭代的秘密：人才、infra、compute 与低沟通成本

08:23 模型质量提升的真相：很多突破来自数据和训练 pipeline 里的小 bug

08:37 Coding model 如何改变研究节奏：代码更快，compute 再次成为瓶颈

09:54 高压研发文化：算力昂贵，但这是一场马拉松

视频模型是怎么训练出来的

11:46 为什么做视频模型之前，通常要先做图像模型

12:50 数据从哪里来：人工详细标注与 VLM 生成 synthetic caption

14:12 训练视频模型为什么既需要配对数据，也需要无标签数据

15:07 VAE / tokenizer：为什么不能直接在像素上训练

17:08 Diffusion transformer：从噪声一步步去噪生成图像和视频

17:27 图像模型如何 bootstrap 视频模型：语言与图像连接更密集

18:24 视频压缩路线：逐帧压缩 vs 时间维度压缩

18:55 为什么不用 MP4 token 直接训练：latent space 必须对模型友好

20:00 实时性的代价：时间压缩节省 context，但会引入响应延迟

生成式 UI 与世界模型的早期形态

20:51 Flipbook：像浏览器一样探索模型想象出的网页

22:31 Generative UI：从用户意图直接到像素，而不是先写代码再渲染

24:09 Diffusion 前端，确定性后端：未来界面可能如何被重构

25:15 人机交互的带宽：人类用语音输出，用视觉输入

26:15 NeuroOS：用视频模型模拟操作系统和游戏

27:52 从过拟合现有界面，到想象全新交互系统

28:47 为什么视频模型能生成训练集中不存在的超自然内容

视频模型的成本、加速与音视频联合生成

31:05 视频模型到底有多贵：训练成本接近中等规模 LLM

31:52 被低估的成本：视频存储、特征存储、IO 和 egress

33:29 训练规模：数十万亿视觉 token、百亿级 active 参数

34:16 推理端加速：step distillation 如何把一百步变成几步

36:36 Consistency model、GAN 与少步生成的关系

37:48 Grok Imagine 0.9：大规模音视频联合生成模型

38:00 音频为什么难：speech 更离散，music 更连续

40:25 音视频对齐：模型必须理解每一秒声音和画面的关系

41:20 时间感：为什么 LLM 本身并不真正感知时间

Ethan 对 World Model 的定义

43:47 什么是 world model：实时、可交互、长时程的视频

44:03 交互性：键盘、鼠标、语音都可以成为输入模态

45:00 实时性：游戏需要毫秒级响应，数字人也要接近两百毫秒

46:00 长时程：世界模型不能只生成几秒，而要持续几分钟甚至几小时

47:00 视频延展：通往长时程 world model 的第一步

48:00 长 context 的挑战：五秒视频就可能有五六万 token

49:03 为什么用户喜欢视频延展：它是通往最终目标的中间产品

Reference Video 与动态上下文管理

51:24 长视频里的冗余：不是所有历史都需要一直放进 context

52:01 Reference video：用角色、物体、场景作为生成条件

52:46 为什么 reference 是一种“作弊”，也是一种重要机制

54:34 FramePack 与动态 context selection：离当前越远，信息越压缩

55:52 LLM 与视频模型共享的问题：context pruning 目前仍高度依赖 heuristic

56:14 Continual learning 的可能突破：让模型自己管理上下文

57:00 人类注意力的启发：不是记住一切，而是动态拉取相关信息

xAI 文化与生成式视频安全

58:35 xAI 被低估的地方：move fast、build、宏大目标和 first principles

59:30 如何倒推三个月目标：从数据、训练、人工标注、GPU 周转时间拆解

60:12 Elon Musk 的工作方式：非常 hands-on，直接给反馈

61:09 Grok Voice：实时语音体验、打断能力和车载场景

61:56 生成式视频安全：水印、下架和社交平台治理

62:19 SynthID 的局限：论文公开后，水印也可能被反向工程

63:04 AI 生成内容越来越难识别：从看手指，到看逻辑是否成立

视觉智能为什么来自语言

64:31 核心判断：视觉智能很大程度来自语言模型

65:00 Prompt rewriter：视频模型背后的“大脑”

65:40 为什么视频 diffusion model 很“字面”：用户说“一只猫”，它可能只生成一只不会动的猫

66:10 GPT Image 类模型为什么要“想几分钟”：时间花在推理、重写 prompt 和组织内容上

67:07 不同架构路线：独立 LLM + diffusion、omni model、离散图像 token

68:21 生成—理解—再生成：omni model 可能如何迭代优化图像

69:54 Prompt rewriter 与 diffusion head 不是一回事，但语言侧都在贡献智能

70:33 不需要 joint training，光重写 prompt 就能显著提高画面质量

Video Agent：生成式媒体的下一波

71:54 Video Agent 的愿景：像人类创作者一样调用工具、编辑、迭代

72:13 Grok Imagine Agent beta：从视频生成走向视频创作工作流

72:29 为什么“生成一分钟视频”是 Agent 任务，而不是单次视频模型任务

73:30 从 Copilot 到 Claude Code：视频创作也会经历 Agent 化

74:17 速度、thinking budget 与 inference infra

75:12 Video Agent 的真正价值：不是模型到头了，而是 harness 和工具链解锁新能力

76:21 AI 模型更懂 AI 模型：未来会有模型专门负责 prompt 和调度生成模型

77:28 为什么确定性工具仍然重要：字幕、排版、精准编辑不必全靠视频模型

78:02 Ethan 的时间判断：年底 Video Agent 会成为大热点

78:20 Production grade 视频：一旦可用于广告和展示，预算会指数级增长

机器人、LLM 与下一阶段研究

78:36 World model 不一定只服务机器人，但机器人会自然成为 AI 可调用的工具

79:12 Physical AI 也许不需要先在真实世界解决，可以先被强视频模型解决

80:10 为什么离开 xAI：想做公司优先级之外的研究，尤其是语言模型方向

81:06 视频模型的瓶颈，正在转向语言模型和 Agent

81:31 未来一年关注什么：模型感知并管理自己的 context

82:00 Context awareness：模型应该知道自己快到上下文上限了

82:30 Context addition / removal / compaction：今天由 harness 做，未来可能被模型吸收

83:59 Self-modifying harness：模型像程序一样，在 test time 给自己编程

85:22 职业路径：从 ResNet 时代的视觉研究，到 FAIR、Cosmos、MoE、xAI

86:44 为什么跨方向并没有想象中困难：训练大模型的原则高度相通

87:33 收尾：xAI 背后还有很多未被讲清楚的层次

🌟 精彩内容

💡 三个月做出 Grok Imagine：速度来自迭代能力

Ethan 回顾了自己加入 xAI 时的状态：没有 infra、没有数据、没有模型，只有几个工程师和一个非常明确的目标。最终团队用三个月发布了 Grok Imagine 0.9。他认为，训练模型最关键的不是某个神奇算法，而是端到端迭代速度：你每天能做多少轮实验，发现多少 bug，修正多少数据和训练 pipeline 的问题。

“我看训练模型这件事时，最重要的其实是，你每天能做多少轮迭代。”

🧠 视频模型的进步，很多来自语言模型

本期最反直觉的观点是：视觉智能很大程度来自语言。Ethan 解释说，视频 diffusion model 本身往往非常字面，它们需要一个更强的语言模型做 prompt rewriting，把用户简单的指令扩展成极其详细的视觉描述。很多图像和视频质量的提升，不是因为 diffusion 模型突然更聪明，而是因为语言模型更会思考、更会写 prompt、更会调用工具。

“我有一个挺大的判断：视觉智能很大程度上其实来自语言，尤其是这些视频模型。”

🌍 World model 是什么：实时、可交互、长时程的视频

Ethan 不试图争论 world model 的唯一标准定义，而是从视频生成角度给出自己的定义：world model 就是实时、可交互、长时程的视频。它要能响应键盘、鼠标、语音输入；要能做到低延迟；还要能持续生成几分钟甚至几小时，并保持角色、声音、物体和事件的一致性。

“在我看来，world model 就是实时、可交互、长时程的视频。”

🧩 长视频的核心难题：不是更长 context，而是会管理 context

视频生成面临巨大的 context 压力。Ethan 提到，Cosmos 中五秒视频就可能有五到六万 token，长视频很容易爆炸。因此，未来的关键不只是硬扩 context length，而是让模型学会动态选择历史信息：什么时候需要完整记住上一秒，什么时候只需要压缩远处历史，什么时候要把某个角色的 reference 拉回来。

“模型应该能够自己选择性地知道，我应该从哪里取 reference。”

🎬 Video Agent 会成为生成式媒体的下一波

Ethan 认为，Video Agent 不是简单地“生成几个片段再拼起来”，而是会像人类创作者一样，使用视频模型、图片编辑工具、视频编辑器、FFmpeg、字幕工具和确定性工具，反复生成、检查、修改、组合，最终做出 production grade 视频。他预测，到年底 Video Agent 会成为一个大热点，一旦生成视频达到广告和展示可用标准，企业预算会快速进入。

“AI 模型更懂 AI 模型。”

🔊 音视频联合生成的难点：时间对齐

Grok Imagine 0.9 被 Ethan 称为第一个大规模部署的音视频联合生成模型。它的难点不只是生成声音，而是让声音、音乐、对白和画面在时间上精确对齐。文本和图像的对齐可以比较松散，但音频和视频必须在每一个时间步上对应，这让数据标注、caption 和模型设计都更加复杂。

“模型必须知道视频和音频之间有基于时间的对齐关系。”

🖥️ Generative UI：未来界面可能直接由模型生成

Ethan 展望了一种未来：如果推理成本足够低，用户界面不一定再由代码写出、浏览器渲染，而可以由 generative model 直接从用户意图生成像素。你可以让 email 像 TikTok 一样呈现，也可以生成没有点赞按钮的 Instagram stories。LLM 和 coding model 负责后端逻辑，diffusion model 成为前端视觉层。

“Generative UI 就是从用户意图直接到像素。”

🧠 LLM 的下一步：感知并管理自己的上下文

离开 xAI 后，Ethan 接下来更关注语言模型方向。他认为，模型未来需要知道自己的 context 状态：什么时候快到上限，什么时候该压缩，什么时候该删除工具调用结果，什么时候该把某些信息重新加入上下文。今天这些工作主要由 Agent harness 的 heuristic 完成，但未来可能会被模型自己吸收。

“启发式工程里的很多东西，最后也会被模型自己吸收进去。”

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight