Gemma 4 12B:开发者指南

TL;DR · AI 摘要
Gemma 4 12B采用无编码器多模态架构,可在16GB显存设备上本地运行并原生支持音频输入。该模型通过移除独立视觉与音频编码器显著降低延迟,配合专用MTP模型提升推理速度,是首个支持macOS桌面端全离线交互的中型多模态模型。
核心要点
- Gemma 4 12B移除独立编码器,视觉仅用35M参数嵌入层,音频直接线性投影至LLM输入空间
- 支持16GB VRAM或统一内存设备本地运行,配套发布Multi-Token Prediction模型加速推理
- 首次提供macOS桌面应用,实现消费级硬件上的全离线语音与视觉交互体验
结构提纲
按章节快速跳转。
Gemma 4 12B是首个采用无编码器架构、支持音频输入的中型多模态模型,专为本地部署优化。
模型取消独立视觉和音频编码器,原始像素与音频帧经轻量投影直接进入Transformer主干网络。
模型可在16GB显存笔记本运行,并提供专用Multi-Token Prediction模型以提升本地推理吞吐量。
因模态共享权重,LoRA或全量微调可单次更新整个多模态通路,无需分别调整冻结编码器。
Google首次发布macOS桌面应用,支持在消费级Mac上完全离线进行语音与视觉交互。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Gemma 4 12B Developer Guide
- Encoder-Free Architecture
- 35M Vision Embedder
- Linear Audio Projection
- Local Deployment
- 16GB VRAM Support
- MTP Acceleration Model
- Developer Experience
- Single-Pass Fine-Tuning
- macOS Desktop App
金句 / Highlights
值得收藏与分享的关键句。
Gemma 4 12B完全绕过重型多阶段视觉和音频编码器,将多模态数据直接输入LLM主干以降低延迟。
视觉嵌入器仅用35M参数和分解坐标查找表,替代了此前中型Gemma模型中的27层ViT。
原始16kHz音频被切分为40ms帧并线性投影至LLM输入空间,省去了12层Conformer编码器。
跨模态统一权重使LoRA或全量微调可通过单次传递完成,无需协同调整独立的冻结编码器。
首个原生支持音频输入的中型Gemma模型,并提供可下载的macOS桌面应用实现全离线语音视觉交互。
标题:Gemma 4 12B:开发者指南
URL 来源:https://developers.googleblog.com/gemma-4-12b-the-developer-guide/
发布时间:2026-06-03
Markdown 内容: 2026 年 6 月 3 日
继我们在发布博客中的公告之后,我们正式推出 Gemma 4 12B,这是一款采用统一、无编码器架构的密集型多模态模型。
Gemma 4 12B 为本地 AI 带来了多项里程碑式突破:
- 多模态无编码器架构: 完全摒弃了繁重的多级视觉和音频编码器,多模态数据直接输入 LLM 主干网络,显著降低了多模态处理的延迟。
- 首款支持音频输入的中型模型: 在 Gemma 系列中,音频输入此前仅限于小型轻量级边缘架构(如 E4B)。Gemma 4 12B 是首款能够原生处理音频输入的中型模型。
- 对开发者友好的模型规模: 体积小巧,可在配备 16GB 显存或统一内存的专用 GPU 笔记本电脑上本地运行。为最大化本地推理速度,我们还额外发布了一个专用的多 Token 预测 (MTP) 模型。
- 全新 MacOS 桌面体验: 我们首次发布了可下载的 macOS 桌面应用程序,让开发者能够在消费级设备上直接体验完全本地的语音和视觉交互。
**架构解析**
传统多模态模型依赖于冻结的独立视觉编码器(例如,Gemma 4 在边缘尺寸模型中使用 1.5 亿参数的视觉模型,在中型模型中使用 5.5 亿参数)和音频编码器(Gemma 4 E2B 和 E4B 使用 3 亿参数)。在将多模态输入馈送给 LLM 之前,使用多个独立编码器进行处理会导致延迟增加和内存占用碎片化。
Gemma 4 12B 通过采用单一的纯解码器 Transformer 解决了这些问题,该 Transformer 包含与 Gemma 4 31B Dense 模型相同的高级解码器结构。

- 视觉嵌入器(3500 万参数): 取代了其他中型 Gemma 4 模型中的 27 层视觉 Transformer。原始 48x48 像素图块通过单次矩阵乘法投影到 LLM 隐藏维度。分解坐标查找表(X 和 Y 矩阵)直接将空间位置信息附加到输入中。
- 音频波形投影: 取消了独立的音频编码器(跳过了 Gemma 4 E2B 和 E4B 中使用的 12 层 Conformer)。原始 16 kHz 音频信号被切分为 40ms 帧(每帧 640 个浮点数),并线性投影到 LLM 输入空间。
- 统一微调优势: 由于视觉、音频和文本输入共享完全相同的权重,您不再需要联合微调独立的冻结编码器。下游适配器(如 LoRA)或全量微调自然会在单次传递中更新整个多模态 Token 循环(通过 Hugging Face 或 Unsloth)。
如需深入了解这种无编码器架构的工作原理,请查阅 Gemma 4 12B 可视化指南。
**能力表现**
Gemma 4 12B 性能卓越,具备自动语音识别、智能体推理、说话人分离、视频理解、代码编写等多种能力。
以下示例展示了该模型的智能体和多模态能力:
**示例 1:Gemma 4 12B 创建一个使用自身的本地图像处理应用**
得益于其智能体和多模态理解能力,Gemma 4 12B 可以轻松与 OpenCode 等现有智能体框架集成。在此示例中,我们使用 llama.cpp 在本地部署该模型,并利用 gemma-skills 编写了一个 Gradio 应用来帮助用户处理图像。而这个应用正是由构建它的同一个 Gemma 4 12B 模型驱动的!
**示例 2:以 1 FPS 处理带音频的 5 分钟视频**
我们使用 Gemma 4 12B 分析了 5 月 19 日 Google I/O 主题演讲片段的一部分,具体为 00:15:32 至 00:20:45 之间的 5 分钟内容。为此,我们提取了该片段的所有帧(1 FPS),以及提示词和视频音频:
提示词:
- 313 帧(1 FPS,图像调整大小至视觉 Token 预算 70)
"what happens when the man takes a selfie?"(当这名男子自拍时会发生什么?)- 视频音频 + 以下提示词
在这些演示视频中,当男子“自拍”或被展示在脸前举着智能手机时,这是一种巧妙的视觉表达方式,用以展示 AI 模型如何获取现有媒体(如个人照片或视频片段)并对其进行“重新构想”。在这些特定片段中,模型正在自拍并将其作为基础来生成各种场景(如身处空间站的人或在森林中漫步)。
本质上,该男子并非真的在自拍;相反,他是在演绎一种视觉隐喻,象征 AI 能够接收单一特定输入(一张“自拍”)并据此生成全新内容世界的能力。 这是 Gemini Omni 模型“Swap”(替换)和“Build worlds”(构建世界)演示的一部分,展示了其执行复杂多模态推理和创意生成的能力。
**端侧与桌面部署:由 LiteRT-LM 提供支持**
随着 Gemma 4 12B 的发布,我们正式推出了由 LiteRT-LM 驱动的强大端侧开发者集成方案,将零延迟的本地 AI 执行能力原生引入标准桌面环境:
1. 原生 MacOS 应用:移动端 **Google AI Edge Gallery** 正式扩展至桌面平台,可在 Apple Silicon GPU 上离线原生运行 Gemma 4 12B。它配备了安全的沙盒化 Python 执行循环,支持在对话气泡内直接编写、执行代码并绘制科学图表。与此同时,Mac 版 **Google AI Edge Eloquent** 应用也新增了对 Gemma 12B 的支持,为语音编辑对话输入提供动力。
2. 即插即用的本地 API 服务器 (litert-lm serve):使用全新的 litert-lm serve **CLI 命令**,即可将 Gemma 4 12B 作为兼容 OpenAI 接口的本地 API 服务器运行。您可以无缝对接各类主流集成工具(如 Continue、Aider、OpenClaw、Hermes 或 OpenCode),并利用内存中的无状态前缀缓存机制匹配上下文历史,从而即时消除预填充延迟。
litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm gemma-4-12B-it.litertlm gemma4-12b
# Start the OpenAI-compatible server
litert-lm serveShell
Copied
如需深入了解,请参阅 Google AI Edge Gallery 博客。
**立即开始使用**
准备好使用 Gemma 系列中首个无编码器架构来构建本地多模态智能体了吗?以下是您今天即可上手的方式:
- 亲自体验:只需点击几下,即可在 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent 应用以及 LiteRT-LM CLI 中进行实验。
- 下载权重:直接从 Hugging Face 和 Kaggle 下载预训练及指令微调检查点。
- 集成与学习:查阅开发者文档和快速入门 Notebook。
- 使用您喜爱的开发工具:利用 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 实现本地推理流水线,或使用 Unsloth 进行高效微调。
- 借助 Gemma Skills 开启智能体开发:为支持开发者利用最新的 Gemma 技术构建智能体,我们发布了官方 Skills 仓库。这是一个专为赋能智能体基于 Gemma 模型进行构建而设计的技能库。
- 灵活部署:通过 Google Cloud 在生产环境中快速启动端点。您可以通过 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE 按您的方式完成部署。
[](https://developers.googleblog.com/gemma-4-12b-the-developer-guide/) 上一页
下一页
[](https://developers.googleblog.com/bringing-gemma-4-12b-to-your-laptop-unlocking-local-agentic-workflows-with-google-ai-edge/)