Gemini Omni 是世界理解与多模态编辑的重大飞跃！

Demis Hassabis(@demishassabis)

Demis Hassabis(@demishassabis)2026年5月19日

Gemini Omni 是世界理解与多模态编辑的重大飞跃！

6.0Score

TL;DR · AI 摘要

Gemini Omni 首次实现任意照片/视频/音频输入并实时生成新场景，标志着多模态编辑进入“任意输入-任意输出”阶段。

核心要点

支持用户上传自有视频并迭代创意
首发以视频为核心场景，后续扩展到全模态
由 DeepMind CEO 亲自发布，可信度较高

结构提纲

按章节快速跳转。

§Gemini Omni 发布
DeepMind CEO 宣布 Gemini Omni 为“世界理解”与多模态编辑的重大飞跃。
·核心能力
模型可接收照片、视频、音频并实时构建全新场景。
·未来路线
长期目标为支持任意输入与任意输出，首发聚焦视频场景。
·用户交互
允许用户上传个人视频并迭代创意，降低创作门槛。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Gemini Omni
- 能力
  - 照片/视频/音频输入
  - 实时生成新场景
- 路线
  - 首发视频场景
  - 未来任意输入输出
- 交互
  - 用户上传视频
  - 迭代创意

金句 / Highlights

值得收藏与分享的关键句。

Gemini Omni 是世界理解与多模态编辑的重大飞跃！
— 正文首句
⬇︎ 下载 PNG 𝕏 分享到 X
未来将支持任意输入与任意输出，首发从视频开始
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X
你甚至可以上传自己的视频并反复迭代创意
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X

#Gemini Omni#多模态生成#DeepMind#视频编辑

打开原文

标题：Demis Hassabis 在 X 上表示：“Gemini Omni 在世界理解与多模态编辑方面实现了重大突破！它可以接收照片、视频和音频，并构建全新的场景。随着时间推移，它将能够处理任何输入并生成任何输出——从视频开始。你甚至可以上传自己的视频，并持续迭代你的想法：https://t.co/VrHPJKRJXH” / X

URL 来源：https://x.com/demishassabis/status/2056831486251380783

Markdown 内容：

Gemini Omni 在世界理解与多模态编辑方面实现了重大突破！它可以接收照片、视频和音频，并构建全新的场景。随着时间推移，它将能够处理任何输入并生成任何输出——从视频开始。你甚至可以上传自己的视频，并持续迭代你的想法：

立即注册，获取专属于你的个性化时间线！