Gemma 4 12B发布：首个支持原生音频输入的中型多模态模型

Philipp Schmid(@_philschmid)

Philipp Schmid(@_philschmid)2026年6月3日

Gemma 4 12B发布：首个支持原生音频输入的中型多模态模型

7.2Score

TL;DR · AI 摘要

Gemma 4 12B是首个支持原生音频输入的中型多模态模型，采用无编码器统一架构，仅需16GB显存即可运行，性能接近26B模型且遵循Apache 2.0开源协议。

核心要点

Gemma 4 12B采用无编码器统一架构，直接将视觉与音频信号输入LLM，降低推理延迟。
模型仅需16GB显存即可运行，在消费级GPU上实现原生多模态能力部署。
基准测试性能接近26B参数模型，以不到一半参数量实现更高性价比。

结构提纲

按章节快速跳转。

§模型发布与定位
Gemma 4 12B是Google推出的首个支持原生音频输入的中型多模态开源模型。
·无编码器统一架构
该模型摒弃传统编码器，将视觉和音频数据直接注入大语言模型进行处理。
›硬件需求与性能表现
Gemma 4 12B仅需16GB显存，基准测试得分接近26B参数规模模型。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Gemma 4 12B 多模态模型
- 架构创新
  - 无编码器设计
  - 原生音视频输入
- 工程优势
  - 16GB显存可运行
  - 性能逼近26B模型
- 开源许可
  - Apache 2.0协议

金句 / Highlights

值得收藏与分享的关键句。

Gemma 4 12B是统一的无编码器多模态模型，视觉和音频直接进入LLM处理。
— 推文正文
⬇︎ 下载 PNG 𝕏 分享到 X
仅需16GB显存即可运行原生音频与视觉能力。
— 推文正文
⬇︎ 下载 PNG 𝕏 分享到 X
12B参数下基准测试接近26B性能，采用Apache 2.0开源协议。
— 推文正文
⬇︎ 下载 PNG 𝕏 分享到 X

#Gemma 4#多模态模型#音频理解#Apache 2.0

打开原文

标题：Philipp Schmid 在 X 上发文：“我们刚刚发布了 Gemma 4 12B！这是我们首款支持原生音频输入的中型模型。Gemma 4 12B 是一个统一的、无编码器的多模态模型。

🧠 视觉和音频直接输入 LLM。 💻 仅需 16GB 内存。 📊 基准测试性能接近 26B 模型。 📄 采用 Apache 2.0 许可证。https://t.co/o7sKQBHoWx” / X

URL 来源：https://x.com/_philschmid/status/2062208534343757989

Markdown 内容：

Philipp Schmid ![图片 1](https://x.com/_philschmid)

@_philschmid

我们刚刚发布了 Gemma 4 12B！这是我们首款支持原生音频输入的中型模型。Gemma 4 12B 是一个统一的、无编码器的多模态模型。图片 2: 🧠 视觉和音频直接输入 LLM。图片 3: 💻 仅需 16GB 内存。图片 4: 📊 基准测试性能接近 26B 模型。图片 5: 📄 采用 Apache 2.0 许可证。

下午 4:23 · 2026年6月3日

1.37万次浏览