T
traeai
登录
返回首页
Google Developers Blog

Gemma 4 12B:开发者指南

9.2Score
Gemma 4 12B:开发者指南

TL;DR · AI 摘要

Gemma 4 12B采用无编码器多模态架构,可在16GB显存设备上本地运行并原生支持音频输入。该模型通过移除独立视觉与音频编码器显著降低延迟,配合专用MTP模型提升推理速度,是首个支持macOS桌面端全离线交互的中型多模态模型。

核心要点

  • Gemma 4 12B移除独立编码器,视觉仅用35M参数嵌入层,音频直接线性投影至LLM输入空间
  • 支持16GB VRAM或统一内存设备本地运行,配套发布Multi-Token Prediction模型加速推理
  • 首次提供macOS桌面应用,实现消费级硬件上的全离线语音与视觉交互体验

结构提纲

按章节快速跳转。

  1. §Gemma 4 12B核心定位

    Gemma 4 12B是首个采用无编码器架构、支持音频输入的中型多模态模型,专为本地部署优化。

  2. 模型取消独立视觉和音频编码器,原始像素与音频帧经轻量投影直接进入Transformer主干网络。

  3. 模型可在16GB显存笔记本运行,并提供专用Multi-Token Prediction模型以提升本地推理吞吐量。

  4. 因模态共享权重,LoRA或全量微调可单次更新整个多模态通路,无需分别调整冻结编码器。

  5. Google首次发布macOS桌面应用,支持在消费级Mac上完全离线进行语音与视觉交互。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Gemma 4 12B Developer Guide
    • Encoder-Free Architecture
      • 35M Vision Embedder
      • Linear Audio Projection
    • Local Deployment
      • 16GB VRAM Support
      • MTP Acceleration Model
    • Developer Experience
      • Single-Pass Fine-Tuning
      • macOS Desktop App

金句 / Highlights

值得收藏与分享的关键句。

  • Gemma 4 12B完全绕过重型多阶段视觉和音频编码器,将多模态数据直接输入LLM主干以降低延迟。

    第2段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 视觉嵌入器仅用35M参数和分解坐标查找表,替代了此前中型Gemma模型中的27层ViT。

    架构章节

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 原始16kHz音频被切分为40ms帧并线性投影至LLM输入空间,省去了12层Conformer编码器。

    架构章节

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 跨模态统一权重使LoRA或全量微调可通过单次传递完成,无需协同调整独立的冻结编码器。

    架构章节

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 首个原生支持音频输入的中型Gemma模型,并提供可下载的macOS桌面应用实现全离线语音视觉交互。

    第2段

    ⬇︎ 下载 PNG𝕏 分享到 X
#Gemma 4#多模态大模型#无编码器架构#本地AI#Google
打开原文

标题:Gemma 4 12B:开发者指南

URL 来源:https://developers.googleblog.com/gemma-4-12b-the-developer-guide/

发布时间:2026-06-03

Markdown 内容: 2026 年 6 月 3 日

继我们在发布博客中的公告之后,我们正式推出 Gemma 4 12B,这是一款采用统一、无编码器架构的密集型多模态模型。

Gemma 4 12B 为本地 AI 带来了多项里程碑式突破:

  1. 多模态无编码器架构: 完全摒弃了繁重的多级视觉和音频编码器,多模态数据直接输入 LLM 主干网络,显著降低了多模态处理的延迟。
  2. 首款支持音频输入的中型模型: 在 Gemma 系列中,音频输入此前仅限于小型轻量级边缘架构(如 E4B)。Gemma 4 12B 是首款能够原生处理音频输入的中型模型。
  3. 对开发者友好的模型规模: 体积小巧,可在配备 16GB 显存或统一内存的专用 GPU 笔记本电脑上本地运行。为最大化本地推理速度,我们还额外发布了一个专用的多 Token 预测 (MTP) 模型。
  4. 全新 MacOS 桌面体验: 我们首次发布了可下载的 macOS 桌面应用程序,让开发者能够在消费级设备上直接体验完全本地的语音和视觉交互。

**架构解析**

传统多模态模型依赖于冻结的独立视觉编码器(例如,Gemma 4 在边缘尺寸模型中使用 1.5 亿参数的视觉模型,在中型模型中使用 5.5 亿参数)和音频编码器(Gemma 4 E2B 和 E4B 使用 3 亿参数)。在将多模态输入馈送给 LLM 之前,使用多个独立编码器进行处理会导致延迟增加和内存占用碎片化。

Gemma 4 12B 通过采用单一的纯解码器 Transformer 解决了这些问题,该 Transformer 包含与 Gemma 4 31B Dense 模型相同的高级解码器结构。

图片 1:概览
  • 视觉嵌入器(3500 万参数): 取代了其他中型 Gemma 4 模型中的 27 层视觉 Transformer。原始 48x48 像素图块通过单次矩阵乘法投影到 LLM 隐藏维度。分解坐标查找表(X 和 Y 矩阵)直接将空间位置信息附加到输入中。
  • 音频波形投影: 取消了独立的音频编码器(跳过了 Gemma 4 E2B 和 E4B 中使用的 12 层 Conformer)。原始 16 kHz 音频信号被切分为 40ms 帧(每帧 640 个浮点数),并线性投影到 LLM 输入空间。
  • 统一微调优势: 由于视觉、音频和文本输入共享完全相同的权重,您不再需要联合微调独立的冻结编码器。下游适配器(如 LoRA)或全量微调自然会在单次传递中更新整个多模态 Token 循环(通过 Hugging Face 或 Unsloth)。

如需深入了解这种无编码器架构的工作原理,请查阅 Gemma 4 12B 可视化指南

**能力表现**

Gemma 4 12B 性能卓越,具备自动语音识别、智能体推理、说话人分离、视频理解、代码编写等多种能力。

以下示例展示了该模型的智能体和多模态能力:

**示例 1:Gemma 4 12B 创建一个使用自身的本地图像处理应用**

视频 5

得益于其智能体和多模态理解能力,Gemma 4 12B 可以轻松与 OpenCode 等现有智能体框架集成。在此示例中,我们使用 llama.cpp 在本地部署该模型,并利用 gemma-skills 编写了一个 Gradio 应用来帮助用户处理图像。而这个应用正是由构建它的同一个 Gemma 4 12B 模型驱动的!

**示例 2:以 1 FPS 处理带音频的 5 分钟视频**

我们使用 Gemma 4 12B 分析了 5 月 19 日 Google I/O 主题演讲片段的一部分,具体为 00:15:32 至 00:20:45 之间的 5 分钟内容。为此,我们提取了该片段的所有帧(1 FPS),以及提示词和视频音频:

提示词:

  1. 313 帧(1 FPS,图像调整大小至视觉 Token 预算 70)
  2. "what happens when the man takes a selfie?"(当这名男子自拍时会发生什么?)
  3. 视频音频 + 以下提示词

在这些演示视频中,当男子“自拍”或被展示在脸前举着智能手机时,这是一种巧妙的视觉表达方式,用以展示 AI 模型如何获取现有媒体(如个人照片或视频片段)并对其进行“重新构想”。在这些特定片段中,模型正在自拍并将其作为基础来生成各种场景(如身处空间站的人或在森林中漫步)。

本质上,该男子并非真的在自拍;相反,他是在演绎一种视觉隐喻,象征 AI 能够接收单一特定输入(一张“自拍”)并据此生成全新内容世界的能力。 这是 Gemini Omni 模型“Swap”(替换)和“Build worlds”(构建世界)演示的一部分,展示了其执行复杂多模态推理和创意生成的能力。

**端侧与桌面部署:由 LiteRT-LM 提供支持**

随着 Gemma 4 12B 的发布,我们正式推出了由 LiteRT-LM 驱动的强大端侧开发者集成方案,将零延迟的本地 AI 执行能力原生引入标准桌面环境:

1. 原生 MacOS 应用:移动端 **Google AI Edge Gallery** 正式扩展至桌面平台,可在 Apple Silicon GPU 上离线原生运行 Gemma 4 12B。它配备了安全的沙盒化 Python 执行循环,支持在对话气泡内直接编写、执行代码并绘制科学图表。与此同时,Mac 版 **Google AI Edge Eloquent** 应用也新增了对 Gemma 12B 的支持,为语音编辑对话输入提供动力。

视频 6

2. 即插即用的本地 API 服务器 (litert-lm serve):使用全新的 litert-lm serve **CLI 命令**,即可将 Gemma 4 12B 作为兼容 OpenAI 接口的本地 API 服务器运行。您可以无缝对接各类主流集成工具(如 Continue、Aider、OpenClaw、Hermes 或 OpenCode),并利用内存中的无状态前缀缓存机制匹配上下文历史,从而即时消除预填充延迟。

code
litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm  gemma-4-12B-it.litertlm gemma4-12b

# Start the OpenAI-compatible server
litert-lm serve

Shell

Copied

如需深入了解,请参阅 Google AI Edge Gallery 博客

**立即开始使用**

准备好使用 Gemma 系列中首个无编码器架构来构建本地多模态智能体了吗?以下是您今天即可上手的方式:

[](https://developers.googleblog.com/gemma-4-12b-the-developer-guide/) 上一页

下一页

[](https://developers.googleblog.com/bringing-gemma-4-12b-to-your-laptop-unlocking-local-agentic-workflows-with-google-ai-edge/)

AI 可能会生成不准确的信息,请核实重要内容