MolmoMotion: Language-guided 3D motion forecasting

Hugging Face Blog

Hugging Face Blog2026年6月17日

MolmoMotion: Language-guided 3D motion forecasting

8.5Score

TL;DR · AI 摘要

MolmoMotion 是一种基于语言指令的 3D 运动预测模型，能够根据视频帧和文字描述预测物体未来运动轨迹，适用于机器人和视频生成等场景。

核心要点

MolmoMotion 可以根据视频帧和语言指令预测物体未来 3D 运动轨迹。
MolmoMotion-1M 是包含 116 万视频的 3D 运动轨迹数据集。
PointMotionBench 是用于评估 3D 运动预测精度的人类验证基准。

结构提纲

按章节快速跳转。

§引言
文章介绍了 MolmoMotion 模型，用于基于语言指令的 3D 运动预测。
·MolmoMotion 的功能
MolmoMotion 能够根据视频帧和语言指令预测物体未来 3D 运动轨迹。
·MolmoMotion-1M 数据集
MolmoMotion-1M 是包含 116 万视频的 3D 运动轨迹数据集。
·PointMotionBench 基准
PointMotionBench 是用于评估 3D 运动预测精度的人类验证基准。
›MolmoMotion 的设计原理
MolmoMotion 使用对象附着的 3D 点表示运动，具有类无关、视角稳定和可直接用于下游系统的特点。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

MolmoMotion
- 功能
  - 基于语言指令预测 3D 运动轨迹
  - 适用于机器人和视频生成
- 数据集
  - MolmoMotion-1M（116 万视频）
- 基准
  - PointMotionBench（人类验证）

金句 / Highlights

值得收藏与分享的关键句。

MolmoMotion 可以根据视频帧和语言指令预测物体未来 3D 运动轨迹。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
MolmoMotion-1M 是包含 116 万视频的 3D 运动轨迹数据集。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
PointMotionBench 是用于评估 3D 运动预测精度的人类验证基准。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X

#AI#3D 运动预测#Hugging Face#机器人#视频生成

打开原文

MolmoMotion：语言引导的3D运动预测

返回文章列表

[0

[-1

企业

]

文章

发布于2026年6月17日

5

[

Kyle Wiggers

Ai2Comms

关注

allenai

🧠 模型：https://huggingface.co/collections/allenai/molmomotion | 📄 技术报告：https://allenai.org/papers/molmomotion | 📊 数据：https://huggingface.co/datasets/allenai/molmo-motion-1m | 💻 代码：https://github.com/allenai/molmo-motion.git | 🌐 项目页面：https://molmomotion.github.io/

机器在感知运动方面已经变得非常出色。给定一个视频，现代模型可以以极高的置信度追踪物体和点在场景中的移动方式。但感知本质上是回顾性的：它解释的是已经发生的运动。我们想要构建的许多系统和应用需要展望未来。一个机器人伸手去拿杯子时，必须在触碰之前预测杯子将如何移动。一个视频生成器如果要生成物理上合理的帧，必须知道接下来会发生什么样的真实运动。

预测运动比观察运动更困难，但在许多场景中也更有用。

这个想法是MolmoMotion的动机，这是我们今天发布的一种新的运动预测模型。给定一个视频帧、在物体上标记的3D点以及描述预期动作的书面指令（例如，“将桌面上带有水果的木碗移动并旋转”），MolmoMotion可以预测这些点在接下来几秒内在3D空间中的移动位置——其性能显著优于现有的预测方法。

观看视频

给定一个RGB观测、物体上的一组查询点以及一个动作描述，MolmoMotion预测物体的未来3D点轨迹。这些预测的轨迹可以驱动下游应用，如机器人规划和轨迹条件下的视频生成。

除了模型，我们还发布了MolmoMotion-1M，这是迄今为止最大的3D点轨迹与动作描述配对的集合，来自116万个视频。我们还发布了PointMotionBench，这是一个经过人工验证的基准，旨在衡量以物体为中心的3D运动预测的准确性，包含2700个视频片段。

我们发现，像MolmoMotion这样的运动预测器在一系列下游任务中都非常有用，从机器人规划到可控视频生成。我们将模型权重、MolmoMotion-1M数据集以及我们的PointMotionBench基准公开，供社区研究、改进和定制。

MolmoMotion：内部原理

MolmoMotion以一种明确且高度高效的方式表示运动：作为世界空间中与物体相关联的3D点，这些点可以捕捉运动，而无需渲染完整视频的代价。我们选择这种方式是因为我们需要一种具有三个特性的通用运动表示：

类别无关：不依赖于人体、手部、刚性物体或其他任何固定类别的模板。

视角稳定：相同的物理运动应在不同相机和视角下具有一致的表示。

可直接被需要推理物理运动的下游系统使用。

在我们考虑的各种表示方法中，这是唯一一种同时满足所有三个条件的表示方法。一组稀疏的表面点可以在不假设被移动物体类型的情况下，描述刚体、关节式运动以及（在一定范围内）可变形运动。由于这些点存在于共享的世界坐标系中，它们的轨迹在摄像机运动和视角变化时保持稳定。而且，由于它们是三维空间中紧凑的显式轨迹，可以直接传递给诸如机器人策略或视频生成模型等系统。

为了预测这些轨迹，MolmoMotion 使用 Molmo 2 作为其主干网络，使其能够将语言指令与图像中的物体和点连接起来。给定一段简短的视频历史、一个动作描述，以及一组具有初始三维位置的查询点，模型首先识别出指令所指的物体、查询点以及描述的运动。然后，它预测每个点的未来三维轨迹。

我们训练了 MolmoMotion 的两个变体：

自回归变体（MolmoMotion-AR）逐步预测未来的坐标。它将三维坐标表示为结构化文本，遵循 VLMs 使用的坐标样式预测方法，并按时间顺序写出未来的轨迹。由于每个新坐标都基于已生成的轨迹进行条件化，这鼓励了平滑的轨迹生成，并在未来路径明确时提供最强的准确性。

流匹配变体（MolmoMotion-FM）通过将噪声转换为运动，在连续的三维空间中预测轨迹，这使其更适合表示当指令允许多个合理未来时的不确定性。

MolmoMotion 的架构。Molmo 2 主干网络的共享输入包括 RGB 观察的图像标记、动作描述的文本标记，以及从 Molmo 2 视觉编码器中采样的二维查询点特征标记。MolmoMotion-AR 对初始的三维查询坐标进行编码，并将未来的轨迹解码为量化坐标文本，而 MolmoMotion-FM 则直接在连续的三维坐标空间中表示这些坐标。

介绍 MolmoMotion-1M 和 PointMotionBench

为了训练 MolmoMotion，我们需要一种尚未存在的数据：具有与特定物体关联的三维点轨迹的大规模视频，并配以动作描述。现有的三维跟踪数据集规模较小且领域受限，虽然互联网视频具有 MolmoMotion 这类预测器所需的所有规模和多样性，但它们没有包含三维注释。因此，我们构建了一个自动流水线，从无约束视频中提取与物体关联的三维轨迹。

给定一个输入视频及其动作描述，我们的注释流水线在度量世界坐标中生成与物体关联的三维点轨迹。（下图展示了每个阶段。）挑战在于，来自无约束视频的原始轨迹存在噪声——深度和跟踪误差会使点抖动和漂移——并且物体在视频的大部分时间里可能保持静止。为了使数据更加可靠，我们过滤掉与物体其余部分不一致移动的点，对剩余的轨迹进行平滑处理，并将每个片段分割到物体实际移动的窗口。

在大规模运行我们的流水线后，我们获得了 MolmoMotion-1M——据我们所知，这是迄今为止收集到的规模最大、包含动作描述和物体关联的三维点轨迹的语料库，涵盖 736 种运动类型和 5,600 个不同的物体。

我们的数据标注流程概述。给定一个动作事件的视频及其描述，我们首先定位移动的物体并在其上采样查询点。然后，我们在物体上跟踪密集的2D点，将这些轨迹提升到共享的度量3D坐标系中，并利用物体级别的空间和时间一致性先验来过滤不可靠的轨迹。最后，我们围绕物体发生有意义运动的时间间隔裁剪视频。

顶部指令：“用桌上的水果移动并旋转木碗。” 底部指令：“在蓝色布料上滚动粘毛器。”

顶部指令：“一辆银色汽车沿着道路行驶，并缓慢向右转弯。” 底部指令：“一只火烈鸟在向右行走的同时将喙浸入水中。”

为了评估 MolmoMotion 的预测性能，我们还构建了 PointMotionBench，这是一个由人工验证的3D轨迹基准测试集。它涵盖了2700个片段，涉及111个物体类别和61种运动类型，包括室内操作、以自我为中心的手-物体交互以及户外动态场景。对于每个片段，模型会获得当前的观察结果、物体查询点和一个动作描述，并根据其预测的3D点轨迹与物体实际未来运动的匹配程度进行评估。这为我们提供了一个直接的定量测试，而不是依赖于生成的点轨迹是否看起来合理。

实验与性能

我们从三个方面评估 MolmoMotion。首先，我们测试它是否比现有方法更准确地预测未来的3D运动。其次，我们测试它所学到的关于运动的知识是否有助于机器人执行操作任务。第三，我们测试这些知识是否能够帮助引导生成视频中的运动。

#### 3D运动预测

在 PointMotionBench 上，MolmoMotion 在我们测试的所有现有3D运动预测方法中表现最佳，包括像素空间视频生成器、参数化3D方法以及一个简单的恒定速度基线方法，适用于各种物体、场景和动作。

MolmoMotion 可以预测许多种类的物体和场景运动，例如粘毛器在布料上来回移动的方式，碗在桌面上滑动和旋转的方式，火烈鸟在向右行走的同时将喙浸入水中的方式，或者汽车在转弯时沿着道路行驶的方式。在每种情况下，预测的路径都遵循 MolmoMotion 所接收到的指令，并且非常接近我们基准测试中的真实运动。

#### 下游评估：机器人规划

MolmoMotion 对运动的学习应该可以跨不同场景迁移——用人类的手拿起杯子和用机器人夹爪拿起杯子是两种完全不同的动作，但杯子本身在3D空间中的路径是相似的。这使得 MolmoMotion 非常适合机器人应用，因为机器人在移动物体之前需要规划它们的运动方式。

在对 DROID（一个大型真实世界机器人操作视频的开放数据集）进行微调后，我们发现 MolmoMotion 可以在各种机器人规划场景中，针对不同的物体、摄像机视角、场景和任务预测出合理的物体路径。

顶部指令：“将布料从容器中取出。” 底部指令：“移动锅盖。”

在仿真环境中，基于 MolmoMotion 构建的控制策略在抓取与放置任务中成功率达到 76.3%，而基于 Molmo 2 的相同策略成功率仅为 56.0%。此外，MolmoMotion 学习速度更快，经过 10K 次训练步骤后达到 51% 的成功率，而 Molmo 2 的版本在 10K 次训练步骤后仅达到 19%。在实际机器人上（经过微调后），MolmoMotion 仅需约 2K 次训练步骤，就能达到 Molmo 2 基线模型在 12K 次训练步骤后达到的测试 L2 误差水平。

#### 后续评估：视频生成

指令：“一只火烈鸟将喙插入水中，同时向右行走。”从上到下：DaS + MolmoMotion、CogVideoX-5B 和 WAN-14B。

指令：“从桌子上拿走圆形的浅棕色盘子。”从上到下：DaS + MolmoMotion、CogVideoX-5B 和 WAN-14B。

MolmoMotion 预测的路径也可以引导视频生成。与其让图像到视频模型仅凭文本指令猜测运动，不如将 MolmoMotion 的预测结果输入模型。这样生成的视频更贴近所请求的动作，尤其是对于那些提示语只能模糊描述的小而精确的运动。

这些指标也支持了这一点。用于引导视频生成器时，MolmoMotion 在我们测量的五个与运动相关的指标上都优于基础模型，并且在五个指标中的四个上击败了一个更大的图像到视频模型。

限制与未来方向

MolmoMotion 是一个功能强大的模型，但仍有一些限制需要注意。在训练过程中，它每对象使用八个查询点——足以预测有用的轨迹，但不足以密集地表示表面几何形状。这限制了模型对复杂变形运动的处理能力。

我们认为预测——在物体移动之前预测它们将如何移动——对于机器智能与感知已有物体同样重要。MolmoMotion 是迈向这一目标的重要一步——一种能够跨对象类别进行泛化的三维运动预测模型，无需每个类别的模板，从普通视频中学习，并且在 PointMotionBench 上是我们测量到的最准确的三维运动预测模型。我们预计，许多应用将在机器人、视频及其他领域随之而来。

我们鼓励您尝试使用 MolmoMotion，方法包括下载权重、检查训练数据、并在 PointMotionBench 上评估我们的方法。

本文中提到的数据集 2

本文中提到的集合 1

更多来自该作者的文章

olmo-eval：模型开发循环的评估工作台

16

2026 年 6 月 12 日

OlmoEarth v1.1：更高效的地球观测模型系列

24

2026 年 5 月 19 日

社区

编辑

预览

通过拖拽文本输入框、粘贴或

点击此处

上传图片、音频和视频。

轻点或粘贴此处上传图片

· 注册或登录以发表评论