欢迎 NVIDIA Cosmos 3:首个用于物理AI推理与行动的开源全能模型

TL;DR · AI 摘要
NVIDIA Cosmos 3 是首个开源物理AI全能模型,整合世界生成、物理推理与动作生成于单模型,支持机器人、自动驾驶等场景,基于MoT架构并提供Hugging Face集成。
核心要点
- Cosmos 3 是首个统一物理AI能力的开源模型,融合世界生成、物理推理与动作生成于单模型。
- 采用 Mixture-of-Transformers (MoT) 架构,支持文本/图像/视频/动作多模态输入与统一推理。
- 提供 Hugging Face 模型卡、Diffusers 集成及自定义训练脚本,支持私有数据微调。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- NVIDIA Cosmos 3:物理AI全能模型
- 核心定位
- 首个开源物理AI omni-model
- 替代传统多模型工作流
- 技术架构
- Mixture-of-Transformers (MoT)
- 多模态编码器+共享空间投影
- AR + DM 双子结构
- 应用场景
- 机器人操作(如抓取放置)
- 自动驾驶长尾场景模拟
- 仓库安全合成数据生成
- 开发者支持
- Hugging Face 模型卡
- Diffusers 集成
- GitHub 自训练脚本
金句 / Highlights
值得收藏与分享的关键句。
Cosmos 3 是首个将世界生成、物理推理和动作生成整合于单一模型的开源解决方案,无需切换多个模型或管道。
采用 Mixture-of-Transformers 架构,支持文本、图像、视频、音频、动作五种模态在统一空间中联合推理与生成。
提供 Hugging Face 模型卡、Diffusers 集成、自训练脚本与合成数据集,开发者可基于真实场景微调模型以适配特定任务。
标题:欢迎 NVIDIA Cosmos 3:首个用于物理 AI 推理与行动的开放全能模型
来源 URL:https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai
发布日期:2026-06-01T04:44:55.257Z
Markdown 内容:
NVIDIA Cosmos 3 已正式发布,并于今日在 Hugging Face 上开放下载。Cosmos 3 是面向物理人工智能的世界基础模型(WFMs)的一次重大突破:它是一个单一、统一的全能模型,将世界生成、物理推理与动作生成整合于一身。无需再在多个模型和推理管线之间来回切换——Cosmos 3 一应俱全。
无论您正在构建机器人系统、自动驾驶汽车还是智能空间,Cosmos 3 都为您提供模拟与理解物理世界的基础能力。
本次发布包含以下内容:
- Hugging Face 平台上提供的 Cosmos 3 Super 与 Cosmos 3 Nano 模型,附带模型卡片与许可信息
- 通过 Diffusers 集成支持生成流程
- 在 GitHub 上提供用于在自有数据上微调 Cosmos 3 的后训练脚本
- 开源的物理 AI 合成数据生成(SDG)数据集
目录
第一部分:Cosmos 3 的新特性
相较于此前的 Cosmos 版本,Cosmos 3 最大的变化在于它是一个全能模型,基于“Transformer 混合架构”(Mixture-of-Transformers, MoT)构建。过去,开发者需要分别使用不同模型来实现各项能力,例如世界生成(Cosmos Predict)、可控生成(Cosmos Transfer)、场景理解(Cosmos Reason)以及策略生成(Cosmos Policy)。而 Cosmos 3 则在一个统一模型中实现了所有这些功能,能够在单次前向传播中进行推理并生成多种模态的内容。
这意味着现在您可以仅用一个模型完成以下任务:
- 根据文本、图像、视频或动作输入,生成逼真且符合物理规律的视频世界
- 对运动、因果关系、空间关系等物理属性进行推理
- 基于当前状态预测未来的视频序列与动作序列
这对物理 AI 的意义
Cosmos 3 有助于构建能够理解真实世界的物理 AI 系统——不仅限于像素与标记,更涵盖运动、因果、物理规律与动作行为。如果您正在训练机器人折叠衣物、构建自动驾驶仿真环境,或为仓库安全场景生成合成训练数据,Cosmos 3 正是为此类应用场景量身打造的基础模型。
由 Cosmos 3 生成的用于机器人抓取与放置场景的视频。
由 Cosmos 3 生成的长尾驾驶场景视频。
使用 Cosmos 3 实现从图像到视频的生成,用于仓库安全数据采集。
在自动驾驶应用中,Cosmos 3 展现链式思维推理能力。
架构设计
Cosmos 3 基于 MoT 架构构建,该架构可在一个统一框架内处理所有模态——包括文本、图像、视频、音频和动作。每种模态首先由专用编码器处理(视觉理解使用 ViT,视觉/音频生成使用 VAE,动作则使用领域感知向量),随后投影至共享表示空间。

输入序列被拆分为两个子序列:自回归(AR)子序列通过下一项预测实现推理与理解;扩散(DM)子序列通过迭代去噪实现生成。每个 Transformer 层内,AR 与 DM 的令牌使用独立参数集,但通过联合注意力机制相互交互——这使得单一模型能够在无需任何架构调整的情况下,无缝切换作为视觉语言模型(VLM)、视频生成器、正向/逆向动力学模型或机器人策略模型。
模型版本
本次 Cosmos 3 发布包含两种模型尺寸,针对不同部署场景进行了优化:
- Cosmos 3 Nano - 这是一个80亿参数的模型(8B推理器和8B生成器),专为高效推理优化。Cosmos 3 Nano 设计用于在工作站级计算设备上运行,例如 RTX PRO 6000 GPU,并可在 Hugging Face 上获取:nvidia/Cosmos3-Nano。
- Cosmos 3 Super - 这是一个320亿参数的模型(32B推理器和32B生成器),专为大规模合成数据生成(SDG)和研究设计,可在 NVIDIA Hopper 和 Blackwell GPU 上运行。Cosmos 3 Super 可在 Hugging Face 上获取:nvidia/Cosmos3-Super。
第二部分:Cosmos 3 的能力
Cosmos 3 通过单一统一模型支持多种输入与生成模态:
| 输入模态 | 输出模态 | 应用场景 | | --- | --- | --- | | 文本 | 图像 | 视频 | 视频模型 | | 文本 | 视频 | 文本 | 视觉语言模型(VLM)| | 动作 | 图像 | 文本 | 视频前向动力学模型 | | 文本 | 视频 | 动作 | 视频逆动力学模型 | | 图像 | 文本 | 视频与动作 | 策略模型 |
提示指南
对于视频生成,我们建议使用以叙事段落形式编写的详细提示。例如:
视频从一辆行驶在多车道高速公路上的车辆内部视角开始,天空晴朗湛蓝。道路两侧是茂密的绿色树林,营造出宁静的氛围。前方可见几辆汽车,包括一辆显眼的白色半挂卡车和其他各类车辆,正保持稳定车速行驶。高速公路由混凝土隔离带分隔成多个车道,场景沐浴在明亮的日光中,表明这是一个晴朗的日子。随着视频推进,前方车道突然出现大量碎片。由于时间紧迫无法避开,主车必须驶过这些碎片并继续前行。当车辆经过散落物体时,明显感受到一次颠簸。镜头采用车内第一人称视角,捕捉前方道路及周围环境。
对于动作生成,提示应简洁明了,并提供空间参考。例如:
将锅放在紫色物品左侧。此视频从第一人称视角拍摄,面向场景。
请参阅 GitHub 上的提示扩增模板以及撰写高质量提示的最佳实践指南。
第三部分:使用 Cosmos 3 与 Diffusers
Cosmos 3 已集成至 Hugging Face 的 Diffusers 库,仅需几行代码即可轻松使用世界生成流水线。您可通过 _Cosmos3OmniPipeline_ 通过熟悉的 DiffusionPipeline 运行 Cosmos 3。此举旨在实现 Cosmos 3 的无缝采用,并与现有流水线无缝集成。
以下是一个使用 Cosmos 3 Nano 模型进行单帧图像生成的文本到图像示例:
import torch
from diffusers import Cosmos3OmniPipeline
pipe = Cosmos3OmniPipeline.from_pretrained(
"nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda"
)
prompt = (
"一个中景镜头,展示一间现代化机器人研究实验室,墙壁为白色,地面为灰色。 "
"一台金属质感的机械臂安装在整洁的白色工作台上,其夹爪悬停在一行彩色小物件上方。旁边放置着一台笔记本电脑和整齐排列的工具。墙上的大屏幕显示着软件界面。整个场景由顶部荧光灯照亮,光线明亮。"
)
result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)以下是 Cosmos 3 Nano 模型根据上述提示生成的图像:

文档中还包含文本到视频、图像到视频等更多示例。有关信息和 API 使用方法,请参阅 Cosmos 3 Diffusers 文档。
第四部分:物理 AI 数据集
作为 Cosmos 3 发布的一部分,NVIDIA 正发布一组合成数据生成(SDG)数据集,以帮助物理 AI 社区训练和评估世界基础模型。这些数据由 NVIDIA 各团队生成,可在 Hugging Face 上获取。
| 数据集 | 领域 | 描述 | | --- | --- | --- | | Embodied-Robot-Scenes | 机器人学 | 合成机器人仿真数据 | | Physical-Interaction-Scenes | 物理学 | Isaac Sim 物理仿真数据 | | Spatial-Reasoning | 推理 | 具身空间推理数据 | | Digital-Human-Scenes | 人类运动 | 合成人运动数据 | | Autonomous-Driving-Scenarios | 驾驶 | 驾驶仿真数据 | | Warehouse-Operations-Scenes | 仓库安全 | 仓库环境数据 |
第五部分:Cosmos 框架
Cosmos Framework 是一个端到端框架,用于训练和部署如 Cosmos 3 这样的世界基础模型(WFM)。您将在其中找到推理和微调后的脚本,以及用于开发的智能体技能。
后训练 Cosmos 3
Cosmos 3 无需额外调整即可理解并生成适用于机器人、自动驾驶车辆和智能空间的世界视频与动作,但某些应用场景可能需要在特定数据集上进行进一步的后训练,以获得最佳效果。我们鼓励针对不同机器人、环境和任务对 Cosmos 3 进行后训练——请参阅仓库中的后训练指南。
代理技能
该仓库还包含代理技能,旨在加速开发流程并简化操作。这些技能有助于验证需求、配置依赖环境。您也可将其用于学习仓库结构与示例、撰写优质提示词,或运行推理与后训练脚本。
第六部分:资源
阅读 Cosmos 3 技术博客,了解 Cosmos 3 的能力、性能、后训练及通过 NIM 微服务部署的相关内容。
致谢
Cosmos 3 是 NVIDIA 内多个团队与人员通力协作的成果,包括:
Adeline Aubame, Aditya Mahajan, Aigul Dzhumamuratova, Akash Gokul, Akul Santhosh, Aleksandr Efitorov, Alex Sotelo, Alexander Schwarz, Alperen Degirmenci, Amol Fasale, Andrew Tham, Ankur Handa, Arihant Jain, Arslan Ali, Artur Zolkowski, Aryaman Gupta, Asawaree Bhide, Ashkan Mirzaei, Ashley Chow, Ashna Khetan, Atharva Joshi, Barnaby Simkin, Benedikt Falk, Brett Hamilton, Carlos Casanova, Chaeyeon Chung, Charles Zhou, Chen-Hsan Lin, Chen-Hsuan Lin, Chhavi Nijhawan, Chieh-Yun Chen, Chintan Shah, Chris Helvig, Chris Pruett, Cindy Zha, Cyrus Hogg, Dahjung Chung, Dan Blick, David Wehr, Dawid Majchrowski, DeLesley Hutchins, Delin Qu, Dennis Lynch, Diego Garzon, Dima Zhylko, Durra Mohsin, Egor Krivov, Ekram Mukbil, Eric Cameracci, Fangyin Wei, Fengzhe Zhou, Francesco Ferroni, Freya Li, George Kurian, Gwanghyun Kim, Haaland Hao Liang, Hai Loc Lu, Hans Yang, Hao Liang, Hao Wang, Hesam Rabeti, Hugo Hadfield, Hyejin Moon, Itai Zadok, Jayjun Lee, Jeana Choi, JF Lafleche, Jiangran Lyu, Jiaojiao Fan, Jiaxiang Tang, Jibin Varghese, Jim Fan, Jingyi Jin, Jinwei Gu, Jon Allen, Joshua Bapst, Joyjit Daw, Julia Kiczka, Julian Ouyang, Kaichun Mo, Kayley Ting, Ke Ding, Kedi Wu, Kevin Brady, Kirill Motkov, Kristen Rumley, Krzysztof Tomala, Liang Feng, Liangkai Zhang, Ling Li, Louis Marcoux, Maciej Bala, Madison Huang, Magdalena Dadela, Mahesh Patekar, Marco Di Lucca, Marilyn Reeb, Mark Carlson, Martin Antolini, Mateusz Sieniawski, Matt Cragun, Meredith Price, Michael Huang, Miguel Guerrero, Miguel Martin, Min Shi, Ming-Yu Liu, Mohammad Harrim, Morteza Ramezanali, Mukesh Beladiya, Nalin Dadhich, Naomi Eigbe, Nathan Hayes-Roth, Nicole Drumheller, Nikhilesh Joshi, Omar Laymoun, Paris Zhang, Paula Ramos, Pawel Morkisz, Peter Gambrill, Pooya Jannaty, Pooya Khaloo, Pranjali Joshi, Qi Wang, Qianli Ma, Qiao Wang, Qing Miao, Qizhi Chen, Rahul Heinrich Steiger, Raju Wagwani, Robert Denomme, Rodrigo Vieira Del Monte, Roy Anthony, Ruqing Xu, Ryan Bernard, Ryan Ji, Saeid Motiian, Sandip Bhaskar, Sandra Skaff, Santanu Dutta, Saurav Kumar, Sehwi Park, Sergiy Fefilatyev, Shangkun Sun, Shangru Li, Shilin Zhu, Shreyas Misra, Shun Zhang, Shuran Song, Simon Yuen, Simon Zhang, Slawek Kierat, Smita Ithape, Soha Pouya, Sophia Huang, Stefanie Manzinger, Steven Baughman, Suneel Indupuru, Sunil Srinivasa, Sunny Kim, Tavish Chen, Thabang Ngazimbi, Thomas Volk, Tianwei She, Tiffany Cai, Ting-Chun Wang, TJ Galda, Tolou Tavakkoli, Tomasz Kornuta, Trung Pham, Tsung-Yi Lin, Vanni Brighella, Varun Praveen, Wei-Cheng Tseng, Wenjie Luo, Wesley Li, Wojciech Kutak, Wojciech Rymer, Xiangyu Lu, Xiaodong Yang, Xiaotong Chen, Xin Kong, Xinquan Xu, Xiu Chia, Xuning Yang, Yan Chang, Yan Wang, Yanan Jian, Yao Xu, Yashraj Narang, Yeongho Seol, Yichu Yang, Yifan Ding, Yihuai Gao, Yilin Zhao, Yin Cui, Yogesh Balaji, Yu Wang, Yu-Wei Chao, Yue Tang, Yufan Huang, Yuke Zhu, Yuliya Zhautouskaya, Yurong You, Yuzhu Dong, Zaid Pervaiz Bhat, Zekun Hao, Zhaoshuo Li, Zhizheng Zhang.