DiffusionGemma: 4x faster text generation

Google DeepMind Blog

Google DeepMind Blog2026年6月10日

DiffusionGemma: 4x faster text generation

8.5Score

TL;DR · AI 摘要

DiffusionGemma 模型通过并行生成文本块，实现高达 4 倍的文本生成速度，适用于需要高速处理的本地交互场景。

核心要点

DiffusionGemma 在 NVIDIA H100 上每秒生成 1000+ tokens，速度比传统模型快 4 倍。
该模型使用 26B MoE 架构，仅激活 3.8B 参数，适合 18GB VRAM 的消费级 GPU。
DiffusionGemma 适用于非线性任务，如代码补全和数学图生成，但输出质量略低于 Gemma 4。

结构提纲

按章节快速跳转。

§引言
介绍 DiffusionGemma 模型及其在文本生成速度上的突破。
·模型架构
DiffusionGemma 基于 Gemma 4 和 Gemini Diffusion 研究，采用 MoE 架构。
·性能优势
DiffusionGemma 在 GPU 上实现高达 4 倍的文本生成速度。
·适用场景
适用于需要高速处理的本地交互任务，如代码补全和数学图生成。
·实验与应用
通过微调，DiffusionGemma 可用于解决 Sudoku 等复杂任务。
·局限性
DiffusionGemma 的输出质量略低于 Gemma 4，不适合对质量要求高的场景。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

DiffusionGemma
- 模型架构
  - 基于 Gemma 4 和 Gemini Diffusion
  - 26B MoE 架构，仅激活 3.8B 参数
- 性能优势
  - 4 倍文本生成速度
  - 适用于 18GB VRAM 的消费级 GPU
- 适用场景
  - 代码补全
  - 数学图生成
  - 非线性任务处理

金句 / Highlights

值得收藏与分享的关键句。

DiffusionGemma 通过并行生成文本块，实现高达 4 倍的文本生成速度。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
DiffusionGemma 在 NVIDIA H100 上每秒生成 1000+ tokens，速度比传统模型快 4 倍。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
DiffusionGemma 适用于非线性任务，如代码补全和数学图生成，但输出质量略低于 Gemma 4。
— 第 5 段
⬇︎ 下载 PNG 𝕏 分享到 X

#DiffusionGemma#文本生成#AI模型#Google DeepMind

打开原文

引入 DiffusionGemma

DiffusionGemma：文本生成速度提升 4 倍

6 月 10 日，2026 年

·

x.com

Facebook

邮件

复制链接

我们最新推出的开放实验模型在专用 GPU 上实现了高达 4 倍的推理速度，并为探索对速度要求高的交互式本地工作流程打开了大门。

Brendan O'Donoghue

研究科学家

Sebastian Flennerhag

文章正文

今天，我们推出 DiffusionGemma，这是一种探索文本扩散的实验性开放模型，文本扩散是一种极其快速的文本生成方法。该模型在 Apache 2.0 许可下发布，是一个 26B 混合专家（MoE）模型，超越了典型自回归大型语言模型（LLMs）逐个标记的顺序处理方式。相反，它同时生成整个文本块，从而在 GPU 上实现高达 4 倍的文本生成速度。

基于我们 Gemma 4 系列的行业领先的参数智能水平以及最新的 Gemini 扩散研究，DiffusionGemma 集成了一种新颖的扩散头，旨在最大化生成速度。虽然自回归 Gemma 4 模型仍然是高质量生产输出的标准，但 DiffusionGemma 是为研究人员和开发者设计的，用于探索对速度要求高、交互性强的本地工作流程，如内联编辑、快速迭代和生成非线性文本结构。

为开发者解锁新的价值

构建实时交互式 AI 应用的开发者经常面临本地推理的延迟瓶颈。DiffusionGemma 直接解决了这些挑战，但有一些关键的权衡：

极速推理：通过将解码瓶颈从内存带宽转移到计算，DiffusionGemma 在专用 GPU 上实现高达 4 倍的标记输出速度。（单个 NVIDIA H100 上每秒生成 1000 多个标记，NVIDIA GeForce RTX 5090 上每秒生成 700 多个标记）。1

可访问的硬件需求：作为总共有 26B 混合专家（MoE）模型，DiffusionGemma 在推理过程中仅激活 3.8B 参数，量化后可以舒适地适应高端专用消费级 GPU 的 18GB 显存限制。

双向注意力：每次前向传递生成 256 个标记，使每个标记都能关注到所有其他标记。这为非线性领域（如内联编辑、代码填充、氨基酸序列或数学图）带来了显著的优势。

智能自我校正：该模型迭代地优化其自身输出，使其能够一次性评估整个文本块，以实时纠正错误。

实验状态与生产建议：由于优先考虑速度和并行布局生成，DiffusionGemma 的整体输出质量低于标准 Gemma 4。对于需要最高质量的应用，我们建议部署标准 Gemma 4。

您可以通过微调来提高 DiffusionGemma 在特定任务上的性能。在下面的示例中，Unsloth 对 DiffusionGemma 进行了微调，使其能够解决数独问题——这是自回归模型难以处理的任务，因为每个标记都依赖于未来的标记。DiffusionGemma 的双向注意力使这一任务变得容易得多。

微调后的 DiffusionGemma 解决数独问题。

为什么使用扩散生成文本？

尽管人工智能研究社区多年来一直在探索基于扩散的文本生成，但将其应用于大型模型仍然是一个挑战。DiffusionGemma 通过改变模型使用硬件的方式改变了这一现状。

与传统模型的权衡

大多数语言模型的表现就像打字机一样，从左到右逐个生成标记。在云端，这种方式效率很高，因为服务器可以将成千上万的用户请求合并在一起，以分摊硬件负载。但当在本地为单个用户运行时，这种逐字处理的方式会导致你的专用 GPU 或 TPU 利用率低下 —— 它大部分时间都在等待下一个“按键”。

DiffusionGemma 改变了这种低效的情况。它不再按顺序预测单词，而是同时起草一个完整的 256 个标记的段落。通过一次性给处理器分配更大的工作块，DiffusionGemma 能够充分利用你的硬件。它将模型推理从单一的顺序打字机升级为一台大型印刷机，能够同时一次性地输出整段文本。

由 Hugging Face 提供的 DiffusionGemma 文本到 3D SVG 演示。逐步生成。

这意味着 DiffusionGemma 的加速效果是为本地和低并发推理设计的。在高 QPS 的云服务中，自回归模型可以部署以高效利用计算资源，因此 DiffusionGemma 的并行解码所提供的收益会逐渐减少，并可能导致更高的服务成本。吞吐量优势在单个加速器上低至中等批量大小时最为明显。

文本扩散的工作原理

类似于从视觉静态图像开始并逐步优化成清晰图像的 AI 图像生成器，DiffusionGemma 也将这种技术应用于文本：

画布：模型从一个随机占位符标记的画布开始。

迭代优化：模型进行多次迭代，锁定正确的标记，并利用它们作为上下文线索来优化其余部分。

最终润色：文本最终收敛为高质量的输出。

由于模型可以在生成过程中处理整个段落，它解锁了新的模型行为模式，例如完美地关闭复杂的 Markdown 格式，或几乎实时地生成和渲染代码。

今天开始使用

下载权重：现在就可以在 Hugging Face 上获取实验性模型权重（以宽松的 Apache 2.0 许可证发布）。

集成与学习：在我们的 DiffusionGemma 开发者指南中了解更多。或者深入阅读《DiffusionGemma 的视觉指南》，以了解其内部机制。

使用你最喜欢的开发工具：使用 MLX、vLLM（Red Hat 提供集成支持）和 Hugging Face Transformers 高效部署模型。为了快速实验，我们将发布一个使用 Hackable Diffusion 的微调教程，这是一个专为可组合性设计的模块化 JAX 工具箱。你也可以使用 Unsloth 和 NVIDIA NeMo 进行微调。此外，对 llama.cpp 的官方支持即将推出。

体验优化性能：我们与 NVIDIA 合作，对其硬件堆栈进行了优化，确保与消费级设置（量化为 GeForce RTX 5090 和 4090 GPU）兼容，同时在企业系统（Hopper 和 Blackwell 使用高级 NVFP4 内核）上实现高性能，包括用于本地桌面部署的 NVIDIA DGX Spark 和 DGX Station，以及用于 AI 专业人士的 RTX PRO。对 NVFP4（4 位浮点）的原生支持加速了计算吞吐量，使模型能够以更快的速度运行，同时保持接近无损的准确性。

按你的方式尝试：在你的桌面专用 GPU 上运行，或通过 Gemini Enterprise Agent Platform Model Garden 或 NVIDIA NIM 在云端运行。

POSTED IN: