Gemma 4 12B：开发者指南

Google Developers Blog

Google Developers Blog2026年6月5日

Gemma 4 12B：开发者指南

9.2Score

TL;DR · AI 摘要

Gemma 4 12B采用无编码器多模态架构，可在16GB显存设备上本地运行并原生支持音频输入。该模型通过移除独立视觉与音频编码器显著降低延迟，配合专用MTP模型提升推理速度，是首个支持macOS桌面端全离线交互的中型多模态模型。

核心要点

Gemma 4 12B移除独立编码器，视觉仅用35M参数嵌入层，音频直接线性投影至LLM输入空间
支持16GB VRAM或统一内存设备本地运行，配套发布Multi-Token Prediction模型加速推理
首次提供macOS桌面应用，实现消费级硬件上的全离线语音与视觉交互体验

结构提纲

按章节快速跳转。

§Gemma 4 12B核心定位
Gemma 4 12B是首个采用无编码器架构、支持音频输入的中型多模态模型，专为本地部署优化。
·无编码器多模态架构机制
模型取消独立视觉和音频编码器，原始像素与音频帧经轻量投影直接进入Transformer主干网络。
·本地部署硬件门槛与加速方案
模型可在16GB显存笔记本运行，并提供专用Multi-Token Prediction模型以提升本地推理吞吐量。
§开发者工具链与微调优势
因模态共享权重，LoRA或全量微调可单次更新整个多模态通路，无需分别调整冻结编码器。
·macOS桌面端原生体验
Google首次发布macOS桌面应用，支持在消费级Mac上完全离线进行语音与视觉交互。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Gemma 4 12B Developer Guide
- Encoder-Free Architecture
  - 35M Vision Embedder
  - Linear Audio Projection
- Local Deployment
  - 16GB VRAM Support
  - MTP Acceleration Model
- Developer Experience
  - Single-Pass Fine-Tuning
  - macOS Desktop App

金句 / Highlights

值得收藏与分享的关键句。

Gemma 4 12B完全绕过重型多阶段视觉和音频编码器，将多模态数据直接输入LLM主干以降低延迟。
— 第2段
⬇︎ 下载 PNG 𝕏 分享到 X
视觉嵌入器仅用35M参数和分解坐标查找表，替代了此前中型Gemma模型中的27层ViT。
— 架构章节
⬇︎ 下载 PNG 𝕏 分享到 X
原始16kHz音频被切分为40ms帧并线性投影至LLM输入空间，省去了12层Conformer编码器。
— 架构章节
⬇︎ 下载 PNG 𝕏 分享到 X
跨模态统一权重使LoRA或全量微调可通过单次传递完成，无需协同调整独立的冻结编码器。
— 架构章节
⬇︎ 下载 PNG 𝕏 分享到 X
首个原生支持音频输入的中型Gemma模型，并提供可下载的macOS桌面应用实现全离线语音视觉交互。
— 第2段
⬇︎ 下载 PNG 𝕏 分享到 X

#Gemma 4#多模态大模型#无编码器架构#本地AI#Google

打开原文

标题：Gemma 4 12B：开发者指南

URL 来源：https://developers.googleblog.com/gemma-4-12b-the-developer-guide/

发布时间：2026-06-03

Markdown 内容： 2026 年 6 月 3 日

继我们在发布博客中的公告之后，我们正式推出 Gemma 4 12B，这是一款采用统一、无编码器架构的密集型多模态模型。

Gemma 4 12B 为本地 AI 带来了多项里程碑式突破：

多模态无编码器架构： 完全摒弃了繁重的多级视觉和音频编码器，多模态数据直接输入 LLM 主干网络，显著降低了多模态处理的延迟。
首款支持音频输入的中型模型： 在 Gemma 系列中，音频输入此前仅限于小型轻量级边缘架构（如 E4B）。Gemma 4 12B 是首款能够原生处理音频输入的中型模型。
对开发者友好的模型规模： 体积小巧，可在配备 16GB 显存或统一内存的专用 GPU 笔记本电脑上本地运行。为最大化本地推理速度，我们还额外发布了一个专用的多 Token 预测 (MTP) 模型。
全新 MacOS 桌面体验： 我们首次发布了可下载的 macOS 桌面应用程序，让开发者能够在消费级设备上直接体验完全本地的语音和视觉交互。

架构解析

传统多模态模型依赖于冻结的独立视觉编码器（例如，Gemma 4 在边缘尺寸模型中使用 1.5 亿参数的视觉模型，在中型模型中使用 5.5 亿参数）和音频编码器（Gemma 4 E2B 和 E4B 使用 3 亿参数）。在将多模态输入馈送给 LLM 之前，使用多个独立编码器进行处理会导致延迟增加和内存占用碎片化。

Gemma 4 12B 通过采用单一的纯解码器 Transformer 解决了这些问题，该 Transformer 包含与 Gemma 4 31B Dense 模型相同的高级解码器结构。

视觉嵌入器（3500 万参数）： 取代了其他中型 Gemma 4 模型中的 27 层视觉 Transformer。原始 48x48 像素图块通过单次矩阵乘法投影到 LLM 隐藏维度。分解坐标查找表（X 和 Y 矩阵）直接将空间位置信息附加到输入中。
音频波形投影： 取消了独立的音频编码器（跳过了 Gemma 4 E2B 和 E4B 中使用的 12 层 Conformer）。原始 16 kHz 音频信号被切分为 40ms 帧（每帧 640 个浮点数），并线性投影到 LLM 输入空间。
统一微调优势： 由于视觉、音频和文本输入共享完全相同的权重，您不再需要联合微调独立的冻结编码器。下游适配器（如 LoRA）或全量微调自然会在单次传递中更新整个多模态 Token 循环（通过 Hugging Face 或 Unsloth）。

如需深入了解这种无编码器架构的工作原理，请查阅 Gemma 4 12B 可视化指南。

能力表现

Gemma 4 12B 性能卓越，具备自动语音识别、智能体推理、说话人分离、视频理解、代码编写等多种能力。

以下示例展示了该模型的智能体和多模态能力：

示例 1：Gemma 4 12B 创建一个使用自身的本地图像处理应用

视频 5

得益于其智能体和多模态理解能力，Gemma 4 12B 可以轻松与 OpenCode 等现有智能体框架集成。在此示例中，我们使用 llama.cpp 在本地部署该模型，并利用 gemma-skills 编写了一个 Gradio 应用来帮助用户处理图像。而这个应用正是由构建它的同一个 Gemma 4 12B 模型驱动的！

示例 2：以 1 FPS 处理带音频的 5 分钟视频

我们使用 Gemma 4 12B 分析了 5 月 19 日 Google I/O 主题演讲片段的一部分，具体为 00:15:32 至 00:20:45 之间的 5 分钟内容。为此，我们提取了该片段的所有帧（1 FPS），以及提示词和视频音频：

提示词：

313 帧（1 FPS，图像调整大小至视觉 Token 预算 70）
"what happens when the man takes a selfie?"（当这名男子自拍时会发生什么？）
视频音频 + 以下提示词

在这些演示视频中，当男子“自拍”或被展示在脸前举着智能手机时，这是一种巧妙的视觉表达方式，用以展示 AI 模型如何获取现有媒体（如个人照片或视频片段）并对其进行“重新构想”。在这些特定片段中，模型正在自拍并将其作为基础来生成各种场景（如身处空间站的人或在森林中漫步）。
本质上，该男子并非真的在自拍；相反，他是在演绎一种视觉隐喻，象征 AI 能够接收单一特定输入（一张“自拍”）并据此生成全新内容世界的能力。 这是 Gemini Omni 模型“Swap”（替换）和“Build worlds”（构建世界）演示的一部分，展示了其执行复杂多模态推理和创意生成的能力。

端侧与桌面部署：由 LiteRT-LM 提供支持

随着 Gemma 4 12B 的发布，我们正式推出了由 LiteRT-LM 驱动的强大端侧开发者集成方案，将零延迟的本地 AI 执行能力原生引入标准桌面环境：

1. 原生 MacOS 应用：移动端 **Google AI Edge Gallery** 正式扩展至桌面平台，可在 Apple Silicon GPU 上离线原生运行 Gemma 4 12B。它配备了安全的沙盒化 Python 执行循环，支持在对话气泡内直接编写、执行代码并绘制科学图表。与此同时，Mac 版 **Google AI Edge Eloquent** 应用也新增了对 Gemma 12B 的支持，为语音编辑对话输入提供动力。

视频 6

2. 即插即用的本地 API 服务器 (litert-lm serve)：使用全新的 litert-lm serve **CLI 命令**，即可将 Gemma 4 12B 作为兼容 OpenAI 接口的本地 API 服务器运行。您可以无缝对接各类主流集成工具（如 Continue、Aider、OpenClaw、Hermes 或 OpenCode），并利用内存中的无状态前缀缓存机制匹配上下文历史，从而即时消除预填充延迟。

code

litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm  gemma-4-12B-it.litertlm gemma4-12b

# Start the OpenAI-compatible server
litert-lm serve

Shell

Copied

如需深入了解，请参阅 Google AI Edge Gallery 博客。

立即开始使用

准备好使用 Gemma 系列中首个无编码器架构来构建本地多模态智能体了吗？以下是您今天即可上手的方式：

亲自体验：只需点击几下，即可在 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent 应用以及 LiteRT-LM CLI 中进行实验。
下载权重：直接从 Hugging Face 和 Kaggle 下载预训练及指令微调检查点。
集成与学习：查阅开发者文档和快速入门 Notebook。
使用您喜爱的开发工具：利用 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 实现本地推理流水线，或使用 Unsloth 进行高效微调。
借助 Gemma Skills 开启智能体开发：为支持开发者利用最新的 Gemma 技术构建智能体，我们发布了官方 Skills 仓库。这是一个专为赋能智能体基于 Gemma 模型进行构建而设计的技能库。
灵活部署：通过 Google Cloud 在生产环境中快速启动端点。您可以通过 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE 按您的方式完成部署。

[](https://developers.googleblog.com/gemma-4-12b-the-developer-guide/) 上一页

Gemma 4 12B：开发者指南

TL;DR · AI 摘要

核心要点

结构提纲

思维导图

金句 / Highlights

**架构解析**

**能力表现**

**示例 1：Gemma 4 12B 创建一个使用自身的本地图像处理应用**

**示例 2：以 1 FPS 处理带音频的 5 分钟视频**

**端侧与桌面部署：由 LiteRT-LM 提供支持**

**立即开始使用**

架构解析

能力表现

示例 1：Gemma 4 12B 创建一个使用自身的本地图像处理应用

示例 2：以 1 FPS 处理带音频的 5 分钟视频

端侧与桌面部署：由 LiteRT-LM 提供支持

立即开始使用