DiffusionGemma: 4x faster text generation
TL;DR · AI 摘要
DiffusionGemma 模型通过并行生成文本块,实现高达 4 倍的文本生成速度,适用于需要高速处理的本地交互场景。
核心要点
- DiffusionGemma 在 NVIDIA H100 上每秒生成 1000+ tokens,速度比传统模型快 4 倍。
- 该模型使用 26B MoE 架构,仅激活 3.8B 参数,适合 18GB VRAM 的消费级 GPU。
- DiffusionGemma 适用于非线性任务,如代码补全和数学图生成,但输出质量略低于 Gemma 4。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- DiffusionGemma
- 模型架构
- 基于 Gemma 4 和 Gemini Diffusion
- 26B MoE 架构,仅激活 3.8B 参数
- 性能优势
- 4 倍文本生成速度
- 适用于 18GB VRAM 的消费级 GPU
- 适用场景
- 代码补全
- 数学图生成
- 非线性任务处理
金句 / Highlights
值得收藏与分享的关键句。
DiffusionGemma 通过并行生成文本块,实现高达 4 倍的文本生成速度。
DiffusionGemma 在 NVIDIA H100 上每秒生成 1000+ tokens,速度比传统模型快 4 倍。
DiffusionGemma 适用于非线性任务,如代码补全和数学图生成,但输出质量略低于 Gemma 4。
引入 DiffusionGemma
DiffusionGemma:文本生成速度提升 4 倍
6 月 10 日,2026 年
·
分享
x.com
邮件
复制链接
我们最新推出的开放实验模型在专用 GPU 上实现了高达 4 倍的推理速度,并为探索对速度要求高的交互式本地工作流程打开了大门。
Brendan O'Donoghue
研究科学家
Sebastian Flennerhag
文章正文
今天,我们推出 DiffusionGemma,这是一种探索文本扩散的实验性开放模型,文本扩散是一种极其快速的文本生成方法。该模型在 Apache 2.0 许可下发布,是一个 26B 混合专家(MoE)模型,超越了典型自回归大型语言模型(LLMs)逐个标记的顺序处理方式。相反,它同时生成整个文本块,从而在 GPU 上实现高达 4 倍的文本生成速度。
基于我们 Gemma 4 系列的行业领先的参数智能水平以及最新的 Gemini 扩散研究,DiffusionGemma 集成了一种新颖的扩散头,旨在最大化生成速度。虽然自回归 Gemma 4 模型仍然是高质量生产输出的标准,但 DiffusionGemma 是为研究人员和开发者设计的,用于探索对速度要求高、交互性强的本地工作流程,如内联编辑、快速迭代和生成非线性文本结构。
为开发者解锁新的价值
构建实时交互式 AI 应用的开发者经常面临本地推理的延迟瓶颈。DiffusionGemma 直接解决了这些挑战,但有一些关键的权衡:
- 极速推理:通过将解码瓶颈从内存带宽转移到计算,DiffusionGemma 在专用 GPU 上实现高达 4 倍的标记输出速度。(单个 NVIDIA H100 上每秒生成 1000 多个标记,NVIDIA GeForce RTX 5090 上每秒生成 700 多个标记)。1
- 可访问的硬件需求:作为总共有 26B 混合专家(MoE)模型,DiffusionGemma 在推理过程中仅激活 3.8B 参数,量化后可以舒适地适应高端专用消费级 GPU 的 18GB 显存限制。
- 双向注意力:每次前向传递生成 256 个标记,使每个标记都能关注到所有其他标记。这为非线性领域(如内联编辑、代码填充、氨基酸序列或数学图)带来了显著的优势。
- 智能自我校正:该模型迭代地优化其自身输出,使其能够一次性评估整个文本块,以实时纠正错误。
- 实验状态与生产建议:由于优先考虑速度和并行布局生成,DiffusionGemma 的整体输出质量低于标准 Gemma 4。对于需要最高质量的应用,我们建议部署标准 Gemma 4。
您可以通过微调来提高 DiffusionGemma 在特定任务上的性能。在下面的示例中,Unsloth 对 DiffusionGemma 进行了微调,使其能够解决数独问题——这是自回归模型难以处理的任务,因为每个标记都依赖于未来的标记。DiffusionGemma 的双向注意力使这一任务变得容易得多。
微调后的 DiffusionGemma 解决数独问题。
为什么使用扩散生成文本?
尽管人工智能研究社区多年来一直在探索基于扩散的文本生成,但将其应用于大型模型仍然是一个挑战。DiffusionGemma 通过改变模型使用硬件的方式改变了这一现状。
与传统模型的权衡
大多数语言模型的表现就像打字机一样,从左到右逐个生成标记。在云端,这种方式效率很高,因为服务器可以将成千上万的用户请求合并在一起,以分摊硬件负载。但当在本地为单个用户运行时,这种逐字处理的方式会导致你的专用 GPU 或 TPU 利用率低下 —— 它大部分时间都在等待下一个“按键”。
DiffusionGemma 改变了这种低效的情况。它不再按顺序预测单词,而是同时起草一个完整的 256 个标记的段落。通过一次性给处理器分配更大的工作块,DiffusionGemma 能够充分利用你的硬件。它将模型推理从单一的顺序打字机升级为一台大型印刷机,能够同时一次性地输出整段文本。
由 Hugging Face 提供的 DiffusionGemma 文本到 3D SVG 演示。逐步生成。
这意味着 DiffusionGemma 的加速效果是为本地和低并发推理设计的。在高 QPS 的云服务中,自回归模型可以部署以高效利用计算资源,因此 DiffusionGemma 的并行解码所提供的收益会逐渐减少,并可能导致更高的服务成本。吞吐量优势在单个加速器上低至中等批量大小时最为明显。
文本扩散的工作原理
类似于从视觉静态图像开始并逐步优化成清晰图像的 AI 图像生成器,DiffusionGemma 也将这种技术应用于文本:
- 画布:模型从一个随机占位符标记的画布开始。
- 迭代优化:模型进行多次迭代,锁定正确的标记,并利用它们作为上下文线索来优化其余部分。
- 最终润色:文本最终收敛为高质量的输出。
由于模型可以在生成过程中处理整个段落,它解锁了新的模型行为模式,例如完美地关闭复杂的 Markdown 格式,或几乎实时地生成和渲染代码。
今天开始使用
- 下载权重:现在就可以在 Hugging Face 上获取实验性模型权重(以宽松的 Apache 2.0 许可证发布)。
- 集成与学习:在我们的 DiffusionGemma 开发者指南中了解更多。或者深入阅读《DiffusionGemma 的视觉指南》,以了解其内部机制。
- 使用你最喜欢的开发工具:使用 MLX、vLLM(Red Hat 提供集成支持)和 Hugging Face Transformers 高效部署模型。为了快速实验,我们将发布一个使用 Hackable Diffusion 的微调教程,这是一个专为可组合性设计的模块化 JAX 工具箱。你也可以使用 Unsloth 和 NVIDIA NeMo 进行微调。此外,对 llama.cpp 的官方支持即将推出。
- 体验优化性能:我们与 NVIDIA 合作,对其硬件堆栈进行了优化,确保与消费级设置(量化为 GeForce RTX 5090 和 4090 GPU)兼容,同时在企业系统(Hopper 和 Blackwell 使用高级 NVFP4 内核)上实现高性能,包括用于本地桌面部署的 NVIDIA DGX Spark 和 DGX Station,以及用于 AI 专业人士的 RTX PRO。对 NVFP4(4 位浮点)的原生支持加速了计算吞吐量,使模型能够以更快的速度运行,同时保持接近无损的准确性。
- 按你的方式尝试:在你的桌面专用 GPU 上运行,或通过 Gemini Enterprise Agent Platform Model Garden 或 NVIDIA NIM 在云端运行。
POSTED IN: