李飞飞:世界模型的功能分类法
TL;DR · AI 摘要
李飞飞提出世界模型的功能分类法,将其划分为渲染器、模拟器等类型,并基于POMDP框架澄清了当前AI领域对“世界模型”概念的混淆,强调空间智能需依赖对时空物理结构的统计学习而非仅文本推理。
核心要点
- 世界模型本质是POMDP循环的投影,分为渲染器(输出像素)与模拟器(输出状态)两类。
- 渲染器追求视觉保真度但缺乏3D结构理解,如Genie 3生成视频无法支持物理交互。
- 模拟器输出几何/物理一致的状态表示,支持人与程序共同计算,是空间智能的核心基础。
结构提纲
按章节快速跳转。
当前AI各领域对“世界模型”定义不一,源于“世界”本身是多义抽象概念,需通过功能分解实现精确化。
部分可观测马尔可夫决策过程(POMDP)定义了智能体-动作-状态-观测的循环,是世界模型的技术本源。
渲染器类世界模型生成人类可视像素,但不具备显式三维结构或物理一致性,仅模拟外观而非真实状态。
模拟器输出几何与物理上可信的状态表示,支持下游任务计算与交互,是实现空间智能的关键组件。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- 世界模型功能分类
- 理论基础
- POMDP循环
- 状态vs观测
- 功能类型
- 渲染器(像素输出)
- 模拟器(状态输出)
金句 / Highlights
值得收藏与分享的关键句。
语言模型学习文本的统计结构,而世界模型学习空间和时间的统计结构:光如何落在表面、物体如何响应力并遵循物理定律。
渲染器生成观众会看到的画面,而非真实存在;无人机镜头中的建筑从上方看完美,但试图穿过城市时就会崩塌。
模拟器的契约是结构性的,要求几何经得起检验、物理尊重牛顿定律,而渲染器的契约纯粹是视觉的。
文章
世界模型的功能分类学
“世界是一切发生的事情。” —— 路德维希·维特根斯坦,《逻辑哲学论》,1921年
在一篇[之前的文章]中,我们提出空间智能是人工智能的下一个前沿领域,而世界模型则是通往这一领域的路径。在此,World Labs 团队和我希望进一步深入探讨:在当前众多被构建并称为“世界模型”的事物中,究竟哪些功能模块真正构成了这种能力——它们各自的作用又是什么?语言模型赋予了机器对概念、词汇和推理的非凡掌握能力,但物理世界(无论是虚拟的还是现实的)运行在完全不同的基底之上。语言模型学习的是文本的统计结构,而世界模型学习的则是空间和时间的统计结构:光线如何照射在物体表面、从相机从未捕捉过的角度观察花园会是什么样子、物体如何响应外力并遵循物理定律。
这使得“世界模型”成为当今 AI 领域中最重要的术语之一,同时也是含义最模糊的术语之一。计算机视觉、机器人学、强化学习和生成式 AI 都声称自己在构建世界模型,但各自的定义却大相径庭。一个能生成画面精美但违背物理规律的火焰的视频模型、一个能即兴创作可玩游戏的语言模型,以及一个能忠实模拟燃烧过程的物理引擎,竟然都被冠以同一个名称。
古希腊人始终无法就世界的本原达成共识——究竟是火、水,还是不可分割的原子——因为“世界”从来就不是单一的存在。对于不同的思想家而言,“世界”始终是他们进行推理所需要的某种整体性的代名词。AI 也继承了同样的问题,而这恰恰发生在该领域最需要精确性的时刻。
要厘清这种混乱,我们需要借助一张比上述所有技术都要古老的图示。包括经典的 Sutton 和 Barto 教材在内的强化学习教科书,几十年来一直使用同一张图的变体来描述智能体(Agent)与世界的交互方式。这张图的形式化名称是部分可观测马尔可夫决策过程(POMDP),而“世界模型”一词最初的定义正是源于这一传统。
智能体(可以是人、机器人或软件系统)执行动作。这些动作会影响世界的状态。智能体永远无法直接看到状态本身。智能体接收到的是观测值:落在视网膜上的光子、传感器的读数以及视频帧中的像素。新的观测值指导新的动作,如此循环往复。
“状态”这个词需要进一步阐释,因为其含义在不同领域间有所差异。这不是化学家所说的状态(即固态、液态和气态的区别)。这是物理学家和机器人专家所说的状态:对某一时刻世界中发生的一切的完整描述,包括每个物体、每个位置、每个速度以及每种属性。状态是世界的底层现实;它在理论上是完整的,但对于身处其中的任何智能体来说,它永远无法被直接观测。观测值是智能体对这一现实的部分视角。动作则是智能体对此做出的响应。
这个循环——从智能体到动作,再到状态,然后到观测值,最后回到智能体——正是赋予现代术语“世界模型”其技术内涵的核心结构。“世界模型”这个短语本身历史更为悠久,最早可追溯到 Kenneth Craik 在 1943 年提出的观点,即心智通过运行现实的“小规模模型”来进行推理,并在 20 世纪 80 年代末至 90 年代初被引入神经网络领域。这个循环也解释了人们今天使用该术语时的实际含义。当前被称为世界模型的各种不同事物,实际上都是这同一个循环的不同投影形式。每一种都只是输出了该循环中的不同片段。
第一类世界模型是渲染器(Renderer)。渲染器输出的是面向人类视觉的像素形式的观测值,其最核心的质量指标是视觉保真度。能将文本提示词转化为电影级无人机镜头的视频模型就是渲染器。像 Google Genie 3 这样的交互式系统,或是 World Labs 自家的 RTFM 也是如此,在这些系统中,模型根据用户输入实时生成画面帧。这类模型并不具备对三维结构的显式理解。它生成的是观察者“会看到”的内容,而非事物的“真实”样貌。无人机镜头中的建筑从高空俯瞰可能完美无瑕,但如果你试图在下方的城市中穿行,就会发现它们破绽百出。
第二类是模拟器(Simulator)。模拟器输出的是状态:一种在几何、物理或动力学上忠实于世界的表征,人类和计算机程序都可以基于此进行计算和交互。如果说渲染器的契约纯粹是视觉层面的,那么模拟器的契约则是结构层面的,它要求几何结构经得起检验、物理规律符合牛顿定律,且动力学行为必须遵循物理法则所规定的真实世界运行方式。模拟器同时服务于两类使用者。建筑师、设计师、电影制作人和游戏开发者等人类专业人士需要超越单纯视觉合理性的精确度。而强化学习智能体、机器人控制器和自动驾驶系统等计算机程序则将模拟器作为训练场,在其中大规模地与世界交互,测试那些在现实中具有危险性、成本高昂或根本无法实现的场景。
第三类是规划器。规划器输出动作。给定一个观测和一个目标,规划器回答的是智能体下一步该做什么的问题。在许多方面,这与渲染器恰好相反。渲染器以动作为输入并生成观测,而规划器则以观测为输入并生成动作,从而闭合了感知-行动循环。视觉-语言-动作模型、基于模型的系统以及新兴的世界动作模型浪潮,本质上都是对规划器的探索:这些系统旨在让机器人能够在非结构化世界中自主决策。
这三类涵盖了当前绝大多数实际落地的应用,这种区分在实践中也颇具价值。然而,它们并非根本割裂。关于世界如何运作的底层知识——几何、物理、动力学——是所有这些系统的共同基石。原则上,一个能从任意角度渲染杯子的模型,也应该能够模拟杯子被推动时的状态变化,并规划出手部抓取杯子的动作。如今,最前沿的研究正有意模糊这三者之间的界限。
媒体无法播放。
在这三类中,模拟器获得的公众关注最少,但其影响却最为深远。本文旨在探讨这种不对称性。
渲染器无疑是目前商业化最成熟的领域。众多图像或文本生成视频的产品正在消费级和企业级市场迅速扩张。Google 的 Nano Banana 模型已让数亿潜在用户能够使用渲染器级别的图像生成技术。这项技术是真实的,市场也是真实的。然而,渲染器追求的是视觉上的合理性而非物理上的精确性,这一局限性至关重要。其生成的画面虽然精美,却无法用于建筑设计或机器人训练等需要严谨性的场景。
规划器是最具吸引力但也最处于萌芽阶段的类别,它与快速发展的机器人学习领域紧密相连。过去两年里,该领域涌现出许多在视频中令人惊叹的机器人演示,但我们需要坦诚地看待这些演示的实际意义。几乎所有演示都局限于高度受限的实验室环境,涉及的对象种类有限,任务周期也很短。没有任何一项演示在真实世界部署所需的复杂性、多变性或持续时间上得到过验证。从引人入胜的演示视频到能在厨房、仓库或手术室中可靠工作的机器人之间,仍存在巨大鸿沟。尽管如此,商业押注依然巨大。一批资金雄厚的新入局者正竞相推出通用规划系统,而顶级基础设施巨头则致力于将规划能力构建在更广泛的模拟技术栈之上。能规划的机器人才能真正工作,整个行业都在争分夺秒,力求率先实现这一目标。
模拟则是连接两者的桥梁。如果说语言是对世界的抽象,像素是对世界的投影,那么几何、物理和动力学就是世界本身。模拟器必须在这一层面运作:它是结构性骨架,既能推导出视觉外观(供渲染器使用),也能推导出动作后果(供规划器使用)。掌握了模拟能力的模型,可以将其理解转化为供人类观看的像素,也可以转化为供具身智能体使用的动作预测。而仅掌握渲染或仅掌握规划的模型都无法做到这一点。其商业覆盖面极为广阔。仅 NVIDIA Omniverse 一项,其目标就涵盖了公司预估规模超万亿美元的工厂、仓库、供应链及数字孪生市场。机器人训练、自动驾驶测试、建筑可视化、工程设计以及药物研发等领域,无不依赖于某种形式的模拟技术。
该领域最棘手的开放性问题也集中于此。与渲染器训练所用的海量互联网视频相比,包含显式几何结构、材质属性和物理标注的三维数据要稀缺数个数量级。Sim-to-Real 差距(即事物在模拟中的表现与现实中的表现之间的差异)依然存在。此外,生成式模拟器还引入了新的风险:AI 生成的几何体可能在视觉上看起来正确,但实际上包含自相交或比例错误,从而导致荒谬的物理行为。大规模多物理场模拟(涉及刚体、柔性物体、流体和布料的复杂交互)的成本仍比单域模拟高出数个数量级。
在 World Labs,Marble 是我们进军这一领域的首次尝试。它接受多模态提示词(文本、图像、视频或空间草图),生成可探索的 3D 环境,同时输出用于视觉探索的高斯泼溅(Gaussian Splats)以及可供物理引擎运行的碰撞网格。但随着渲染、模拟和规划之间的界限开始消融,Marble 仅仅是这个宏大篇章的序曲,整个领域正在共同书写这一历程。
未来还有更多可能。当前该领域最重要的趋势是这三类技术正逐渐融为一体。核心共识在于:渲染世界、模拟世界并在其中采取行动所需的知识在很大程度上是相通的。延续之前的例子,如果一个模型真正理解了杯子放在桌上的状态(包括其几何形状、材质属性、受力响应等),它就应该能够从任意角度渲染这个杯子,模拟杯子被推动时的情况,并规划出手部抓取杯子的动作。这三类技术实际上是同一底层认知的三种不同投影。
例如:来自多个机器人实验室的少量但不断增长的最新研究表明,至少在概念上,预训练的视频渲染器可以作为联合世界与动作预测的骨干网络。这通过让单一模型同时想象“将会发生什么”和“应该做什么”,在渲染器与规划器之间架起了一座桥梁。World Labs 的 Marble 已经能够从单一模型中输出高斯泼溅(Gaussian splats)和碰撞网格,从而消除了渲染器与仿真器之间的界限。各个层面正从被动输出迈向交互式系统:渲染器变得以动作为条件,仿真器生成的世界更具可控性和可编辑性,而规划器则从单纯的反应转向主动推演。
这一演进的逻辑终点是一个统一的世界模型:一个基础模型能够渲染照片级逼真的视图、生成物理精确的结构并规划动作序列,根据下游消费者的需求在不同输出模态之间灵活切换。我们仍将面临诸多严峻挑战。数据分布极不均衡:渲染器拥有海量的互联网视频数据,而仿真器和规划器却严重缺乏 3D 资产和机器人演示数据。对视觉美感的优化可能会牺牲机器人或高保真仿真所需的精度。如何在单一架构内调和这些矛盾,是当今世界模型研究中最核心的未解难题,而这正是 World Labs 在持续迭代 Marble 过程中致力于实现的目标。
媒体无法播放。
然而,发展方向已十分明确。自 20 世纪 80 年代末以来,整个领域一直在押注同一个信念——只要拥有一个足够丰富的世界模型,智能体便足以观察、构建世界并在其中采取行动——而如今,这一信念正驱动着整整一代研究工作。赋予这一“宏大赌注”分量的,是当下正在发生的融合:三条原本独立的研究脉络,每一条都已独自推动并塑造了价值数十亿美元的产业,如今正开始表现出一体化的趋势。随着它们之间的界限逐渐消融,三者合力将重塑更为宏大的图景:即机器智能与其所处的物理世界之间的关系——这正是空间智能发展的漫长征程。
语言赋予了机器描述世界的方式,而世界模型将使机器最终能够理解、想象、推理并与这个世界进行交互。