Gemini Omni 来了!Google 的优势,果然还是在多模态模型吧?!
meng shao(@shao__meng)713 字 (约 3 分钟)
78
Google Gemini Omni 是首个原生多模态理解与生成模型,支持图文音视频任意组合输入,实现对话式视频编辑与物理世界知识推理,显著超越Veo等前代模型。
入选理由:Gemini Omni 支持图、文、视频、音频任意组合输入,实现多轮对话式视频编辑,无需重述完整提示词。
精选推文#Gemini Omni#多模态模型#视频生成#Google DeepMind#AI编辑中文
