Meet Cosmos 3: Our Latest Frontier Model for Physical AI

NVIDIA Developer视频2026年6月1日

9.2Score

可直接观看的视频资源打开原视频

TL;DR · AI 摘要

NVIDIA发布Cosmos 3，首个整合视觉、语言、声音与动作的全能物理AI模型，采用Mixture-of-Transformer架构，在多个基准测试中登顶，支持开源定制与边缘部署。

按章节快速跳转。

§产品发布与定位
NVIDIA宣布推出Cosmos 3，作为首个整合多模态输入输出的全能物理AI模型，取代前代分立模型。
·核心技术架构
采用Mixture-of-Transformer架构，左塔自回归生成，右塔扩散模型，兼容视觉语言、世界模型及视觉语言动作模型。
·性能与基准表现
在VANTAGE-Bench、TAR、PAI-Bench、R-Bench及RoboLab等6项物理AI基准中排名第一，图像到视频生成开源第一。
·部署与生态支持
提供Super与Nano双版本，支持云端高精度与边缘设备轻量化部署，配套Hugging Face权重与GitHub代码。
·开源与开发者赋能
模型权重、训练脚本与数据集全部开源，旨在加速物理AI革命并降低开发者入门门槛。

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

值得收藏与分享的关键句。

Cosmos 3 是首个将语言、视频、声音和动作统一建模的Omni模型，基于创新的Mixture-of-Transformer架构，融合自回归与扩散机制。
— 第0:40-0:56段
⬇︎ 下载 PNG 𝕏 分享到 X
在VANTAGE-Bench、TAR、PAI-Bench、R-Bench及RoboLab等6个关键物理AI基准中取得第一名，图像到视频生成在开源模型中排名第一。
— 第1:45-2:04段
⬇︎ 下载 PNG 𝕏 分享到 X
提供Super（高精度）与Nano（轻量边缘部署）两个版本，满足从数据中心到嵌入式设备的多样化部署需求。
— 第1:28-1:37段
⬇︎ 下载 PNG 𝕏 分享到 X

#NVIDIA#物理AI#Omni模型#Mixture-of-Transformer#开源模型