T
traeai
登录
返回首页
InfoQ

Gemma 4 多令牌预测实现高达 3 倍的令牌生成速度提升

7.5Score
Gemma 4 多令牌预测实现高达 3 倍的令牌生成速度提升

TL;DR · AI 摘要

Gemma 4 引入多令牌预测技术,使令牌生成速度提升高达 3 倍,显著改善大模型推理效率。

核心要点

  • Gemma 4 采用多令牌预测技术,将令牌生成速度提升至原来的 3 倍。
  • 该技术通过并行处理多个令牌预测,减少重复计算,提高推理效率。
  • 适用于大规模语言模型部署场景,尤其在实时响应需求高的应用中优势明显。

结构提纲

按章节快速跳转。

  1. §Gemma 4 技术背景

    介绍 Gemma 4 模型及其在大语言模型中的定位和目标。

  2. 详细说明多令牌预测如何实现并行处理,从而提升生成效率。

  3. 展示 Gemma 4 在不同任务下的速度提升数据,验证其效果。

  4. 分析该技术在对话系统、代码生成等领域的潜在应用价值。

  5. 探讨多令牌预测技术在未来模型优化中的潜力和挑战。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Gemma 4 多令牌预测
    • 技术原理
      • 并行预测
      • 减少重复计算
    • 性能提升
      • 速度提升达 3x
      • 延迟降低
    • 应用场景
      • 对话系统
      • 代码生成

金句 / Highlights

值得收藏与分享的关键句。

#AI#LLM#Gemma#Transformer#Token Generation
打开原文

Gemma 4 多令牌预测实现高达约 3 倍的令牌生成速度提升 - InfoQ

关于本网站 Cookie 的选择

我们使用 Cookie 来优化网站功能并为您提供最佳体验。

我接受 我拒绝 设置

[BT](https://www.infoq.com/int/bt/ "bt")

InfoQ 软件架构师通讯

每月为您呈现作为架构师或有志于成为架构师所需了解的重要事项概览。

查看示例

输入您的电子邮件地址

选择您的国家 - [x] 我同意 InfoQ.com 按此 隐私声明 中所述处理我的数据。

我们保护您的隐私。

关闭

QCon 旧金山(11月16日至20日):AI 的下一步是什么?软件的下一步是什么?从已经实践这些的团队中学习。立即注册

关闭

切换导航栏

促进专业软件开发领域知识与创新的传播

英语版

[为 InfoQ 撰稿](https://www.infoq.com/write-for-infoq/ "为 InfoQ 撰稿")

搜索

注册登录

解锁完整的 InfoQ 体验

通过登录解锁完整 InfoQ 体验!关注您喜爱的作者和主题,参与内容互动,并下载独家资源。

登录

或者

没有 InfoQ 账户?

注册

  • 关注对您重要的主题和同行即时接收最新洞察和趋势提醒。
  • 快速获取免费资源以持续学习小册子、带文字稿的视频及培训材料。
  • 保存文章随时阅读收藏文章以便随时阅读。

Logo - 返回主页

新闻文章演讲播客指南

主题

[开发](https://www.infoq.com/development/ "开发")

  • [Java](https://www.infoq.com/java/ "Java")
  • [Kotlin](https://www.infoq.com/kotlin/ "Kotlin")
  • [.Net](https://www.infoq.com/dotnet/ ".Net")
  • [C#](https://www.infoq.com/c_sharp/ "C#")
  • [Swift](https://www.infoq.com/swift/ "Swift")
  • [Go](https://www.infoq.com/golang/ "Go")
  • [Rust](https://www.infoq.com/rust/ "Rust")
  • [JavaScript](https://www.infoq.com/javascript/ "JavaScript")

开发领域精选

Dany Lepage 讨论了将一款热门 VR 游戏移植到七种非 VR 平台的架构历程。他解释了团队如何解决跨平台进度、多样化输入范式以及在 Steam、iOS 和 PlayStation 上保持发布节奏的挑战。除了技术之外,他还分享了在将沉浸式社交存在感转化为二维屏幕时关于“产品契合度”差距的坦诚经验。

![图像 2: 从 VR 到平面屏幕:弥合输入与沉浸感差距/presentations/game-vr-flat-screens/en/smallimage/thumbnail-1775637585504.jpg)](https://www.infoq.com/presentations/game-vr-flat-screens)

全部开发内容 关注该主题

[架构与设计](https://www.infoq.com/architecture-design/ "架构与设计")

  • [架构](https://www.infoq.com/architecture/ "架构")
  • [企业架构](https://www.infoq.com/enterprise-architecture/ "企业架构")
  • [可扩展性/性能](https://www.infoq.com/performance-scalability/ "可扩展性/性能")
  • [设计](https://www.infoq.com/design/ "设计")
  • [案例研究](https://www.infoq.com/Case_Study/ "案例研究")
  • [微服务](https://www.infoq.com/microservices/ "微服务")
  • [服务网格](https://www.infoq.com/servicemesh/ "服务网格")
  • [模式](https://www.infoq.com/DesignPattern/ "模式")
  • [安全](https://www.infoq.com/Security/ "安全")

架构与设计领域精选

Michael Stiefel 与 Baruch Sadogursky 探讨了代理 AI 时代下的软件架构。大型语言模型可以作为推理机器运行,尽管具有随机性,但能够解释人类的模糊性。通过适当的严谨上下文工件来控制 LLM 的推理过程,软件规范可以成为真理之源,而代码则成为可丢弃的中间语言。

![图像 3: 上下文是代理架构革命的关键:与 Baruch Sadogursky 的对话/podcasts/context-key-agentic-architecture-revolution/en/smallimage/the-infoq-podcast-logo-thumbnail-1778747429699.jpg)](https://www.infoq.com/podcasts/context-key-agentic-architecture-revolution)

全部架构与设计内容 关注该主题

[人工智能基础设施](https://www.infoq.com/ai-ml-data-eng/ "AI Infrastructure")

  • [大数据](https://www.infoq.com/bigdata/ "Big Data")
  • [机器学习](https://www.infoq.com/machinelearning/ "Machine Learning")
  • [NoSQL](https://www.infoq.com/nosql/ "NoSQL")
  • [数据库](https://www.infoq.com/database/ "Database")
  • [数据分析](https://www.infoq.com/data-analytics/ "Data Analytics")
  • [流处理](https://www.infoq.com/streaming/ "Streaming")

人工智能、机器学习与数据工程精选

Ian Thomas 分享了在 Meta 的 Reality Labs 中拥抱 AI 原生工程的案例研究。他解释了“评估与成长”框架,这是一个成熟度模型,旨在帮助团队从手动操作转向 AI 驱动的创新。他讨论了实际成果——包括在创纪录的时间内达到 90% 的代码覆盖率——同时回应了高级工程师的担忧,例如“代码垃圾”、“评审疲劳”以及如何维持质量。

![图像 4: AI 原生工程/presentations/ai-native-engineering/en/smallimage/thumbnail-1778664122266.jpeg)](https://www.infoq.com/presentations/ai-native-engineering)

关注 AI、ML 和数据工程 关注话题

[文化与方法](https://www.infoq.com/culture-methods/ "Culture & Methods")

  • [敏捷开发](https://www.infoq.com/agile/ "Agile")
  • [多样性](https://www.infoq.com/diversity/ "Diversity")
  • [领导力](https://www.infoq.com/leadership/ "Leadership")
  • [精益/看板](https://www.infoq.com/lean/ "Lean/Kanban")
  • [个人成长](https://www.infoq.com/personal-growth/ "Personal Growth")
  • [Scrum](https://www.infoq.com/scrum/ "Scrum")
  • [社会系统治理](https://www.infoq.com/sociocracy/ "Sociocracy")
  • [软件工艺](https://www.infoq.com/software_craftsmanship/ "Software Craftmanship")
  • [团队协作](https://www.infoq.com/team-collaboration/ "Team Collaboration")
  • [测试](https://www.infoq.com/testing/ "Testing")
  • [用户体验](https://www.infoq.com/ux/ "UX")

文化与方法精选

Stéphane Di Cesare 和 Cat Morris 分享了工程师如何通过产品发现,从“成本中心”转变为“价值驱动者”。他们解释了“双钻模型”及其为何识别用户问题必须先于构建解决方案。学习如何选择正确的指标、通过观察建立客户同理心,并利用业务背景来最大化技术工作的影响力。

![图像 5: 云原生工程师的产品思维/presentations/product-cloud-native/en/smallimage/CatMorrisStephaneDiCesare-thumbnail-1778661429675.jpg)](https://www.infoq.com/presentations/product-cloud-native)

关注文化与方法 关注话题

DevOps

  • [基础设施](https://www.infoq.com/infrastructure/ "Infrastructure")
  • [持续交付](https://www.infoq.com/continuous_delivery/ "Continuous Delivery")
  • [自动化](https://www.infoq.com/automation/ "Automation")
  • [容器](https://www.infoq.com/containers/ "Containers")
  • [云](https://www.infoq.com/cloud-computing/ "Cloud")
  • [可观测性](https://www.infoq.com/observability/ "Observability")

DevOps 精选

J. Paul Reed 讨论了“自动化讽刺”这一概念——一个已有 40 年历史的理念,如今因 AI 而被放大。他解释了先进的系统往往使人类操作员变得更加关键,而非更不重要,同时也在削弱干预所需的技能。他分享了“AI 驱动”的真实事故故事,解释为什么过度依赖 AI 可能使恢复时间翻倍,以及如何保持系统的弹性。

![图像 6: A²I² 的讽刺/presentations/automation-incidents-ai/en/smallimage/thumbnail-1778662652640.jpg)](https://www.infoq.com/presentations/automation-incidents-ai)

关注 DevOps 关注话题

[活动](https://events.infoq.com/ "Events")

有用的链接

  • [关于 InfoQ](https://www.infoq.com/about-infoq "About InfoQ")
  • [InfoQ 编辑团队](https://www.infoq.com/infoq-editors "InfoQ Editors")
  • [为 InfoQ 撰稿](https://www.infoq.com/write-for-infoq "Write for InfoQ")
  • [关于 C4Media](https://c4media.com/ "About C4Media")
  • [多样性](https://c4media.com/diversity "Diversity")

选择您的语言

  • [En](https://www.infoq.com/news/2026/05/gemma4-multi-token-prediction/# "InfoQ English")
  • 中文
  • 日本
  • Fr

![图像 7:InfoQ 架构认证 - 图像 在线 InfoQ 架构认证 越是资深,就越少有人对你做出的决策进行压力测试。这个为期 5 周的训练营为你提供这种验证。立即注册。](https://certification.qconferences.com/architecture?utm_source=infoq&utm_medium=referral&utm_campaign=homepageheader_onlinecohortarchitecturejune26)![图像 8:QCon AI 波士顿 - 图像 QCon AI 波士顿 学习顶尖工程团队如何可靠、安全且大规模地在生产环境中运行 AI。立即注册。](https://boston.qcon.ai/?utm_source=infoq&utm_medium=referral&utm_campaign=homepageheader_qaiboston26)![图像 9:QCon AI 波士顿 - 图像 在线 InfoQ AI 工程认证 针对高级工程师在检索、代理、评估和 AI 基础设施方面做决策的实用在线训练营。立即注册。](https://certification.qconferences.com/ai-engineering?utm_source=infoq&utm_medium=referral&utm_campaign=homepageheader_onlinecohortaijuly26)![图像 10:QCon 旧金山 - 图像 QCon 旧金山 了解 AI 和软件的未来趋势,来自已经在实践这些技术的团队。立即注册。](https://qconsf.com/?utm_source=infoq&utm_medium=referral&utm_campaign=homepageheader_qsf26)

[InfoQ 首页](https://www.infoq.com/ "InfoQ 首页")[新闻](https://www.infoq.com/news "新闻")Gemma 4 多令牌预测实现高达约 3 倍更快的令牌生成

[AI、机器学习与数据工程](https://www.infoq.com/ai-ml-data-eng/ "AI、机器学习与数据工程")

自主可靠性架构:将 AI 嵌入可观测性栈(网络研讨会 6 月 25 日)

Gemma 4 多令牌预测实现高达约 3 倍更快的令牌生成

2026 年 5 月 25 日 · 阅读时长 2 分钟

作者:

关注

#### 为 InfoQ 撰稿

满足你的好奇心。帮助 55 万多名全球高级开发人员每月保持领先。联系我们

登录以收听本文

加载音频

音频 2

0:00 0:00

正常 1.25x 1.5x

点赞

Gemma 4 可以搭配使用多令牌预测(MTP)草稿模型,这些模型利用推测解码并行生成多个令牌,使模型可以在一次处理中验证它们,从而在不损失质量的前提下实现高达约 3 倍的推理速度提升。

多令牌预测草稿模型是轻量级辅助模型,它们与 Gemma 4 一起工作以解决大型语言模型(LLM)内存带宽瓶颈。正如谷歌工程师所解释的那样,在推理过程中,处理器大部分时间都在反复将数十亿个参数从 VRAM 移动到计算单元,用于每个令牌的处理。这种持续的数据移动增加了延迟,并导致计算资源未被充分利用,特别是在消费级硬件上。

这种低效性因以下事实而加剧:LLM 对“显而易见的计算”和“复杂的逻辑谜题”投入相同的计算量,这正是多令牌预测草稿模型可以发挥作用的地方。

通过将一个重型目标模型(例如 Gemma 4 31B)与一个轻量级草稿模型(即 MTP 模型)配对,我们可以利用空闲的计算资源,用草稿模型在比目标模型处理单个令牌所需的时间更短的情况下“预测”多个未来的令牌。然后目标模型并行验证所有这些建议的令牌。

谷歌表示,使用多令牌预测草稿模型可以提高响应速度,并在各种设备上实现更快的推理,包括个人电脑和消费级 GPU 上运行的 Gemma 26B MoE 和 31B 密集模型,以及使用 E2B 和 E4B 变体的移动设备,同时不牺牲响应质量:

因为主 Gemma 4 模型保留了最终验证,因此你获得的是相同的前沿级推理和准确性,只是交付速度显著加快。

为了确保 MTP 草稿模型能够实现最大效率,谷歌实施了一系列架构增强和硬件特定优化,并提供了关于草稿模型工作原理的深入可视化解释,该解释发布在 x.com 的帖子中。

Reddit 用户 FarrisAT 将 Gemma 4 MTP 描述为"相当令人印象深刻的东西",但他也提醒说本地模型仍然犯太多错误,他认为真正的优势将在“这些模型接近前沿水平”时才会显现。

另一位用户 Gohab2001 指出,MTP 本身是一种广为人知的技术,但在本地部署中存在一个主要缺点:需要将两个模型加载到内存中。他还指出,Gemma 4 MTP 草稿实现中的真正进步在于它们共享目标模型的共享 kV 缓存,这确实有助于降低该技术的开销。

在 Hacker News 上,zozbot234 表示:“当只有一个或少数用户时,MTP 主要发挥作用,这意味着计算资源充足”,例如在移动或边缘场景中,而对于大规模的 API 提供商来说,其收益有限。

Gemma 4 MTP 启用变体 可在多个平台获取,包括 Hugging Face、Kaggle、Ollama 等。

关于作者

Image 12

#### Sergio De Simone

Sergio De Simone 是一名软件工程师。Sergio 在不同项目和公司工作了超过二十五年,包括像西门子、惠普以及小型初创公司这样的不同工作环境。在过去十年多的时间里,他的重点一直放在移动平台及其相关技术的开发上。他目前在 BigML, Inc. 工作,负责 iOS 和 macOS 的开发工作。

显示更多 显示较少

#### 此内容属于 AI, ML & Data Engineering 话题

关注话题

##### 相关话题:

关注者:4106

关注话题

关注者:5923

关注话题

关注者:102

关注话题

关注者:52

关注话题

关注者:1

关注话题

关注者:141

关注话题

关注者:68

关注话题

关注者:51

关注话题

关注者:69

关注话题

* #### 相关编辑内容

* #### 相关赞助商

  • #### 相关赞助商

![Image 13: 相关赞助图标/filters:no_upscale()/sponsorship/topic/ae9df779-fe62-46d8-a42e-92795ae3c56e/promptfoo-horizontal-logo-1775562471842.png)](https://www.infoq.com/url/f/9e1e2056-ec65-4658-aaaa-50b66b2d0ee1/) 使用 Promptfoo 来自信地测试、评估和红队你的 LLM 应用程序 —— 捕获回归问题,对比模型性能,并更快地发布高质量的 AI 功能;立即开始测试你的提示词吧。[了解更多](https://www.infoq.com/url/f/0ed8a8f2-ad41-400e-b24f-e10459b3993d/)

相关内容

May 16, 2026

May 06, 2026

May 15, 2026

May 14, 2026

May 13, 2026

相关赞助商

系统提示定义了LLM应用程序的行为——但它们容易受到操纵。本文探讨了指令屏蔽、语法强化和分层提示等提示强化技术,以防御AI系统免受提示注入和覆盖攻击。

模型上下文协议(MCP)定义了一种标准方式,使AI系统能够与工具、数据和服务交互。本文解释了MCP的架构——主机、客户端和服务器——以及它如何实现AI模型与外部系统的结构化、安全集成。

  • 赞助商

![图片 16:图标图像/filters:no_upscale()/sponsorship/topic/ae9df779-fe62-46d8-a42e-92795ae3c56e/promptfoo-horizontal-logo-1775562471842.png)](https://www.infoq.com/url/f/9e1e2056-ec65-4658-aaaa-50b66b2d0ee1/)

相关内容

May 11, 2026

May 07, 2026

May 05, 2026

May 04, 2026

May 03, 2026

Apr 30, 2026

**InfoQ**通讯录

每周二发送的InfoQ上周内容摘要。加入超过250,000名资深开发者的社区。查看示例

输入您的电子邮件地址

选择您的国家 - [x] 我同意InfoQ.com按照本隐私声明中所述处理我的数据。

我们保护您的隐私。

  • ##### [Pip 26.1发布依赖冷却和实验性锁文件支持以应对供应链攻击](https://www.infoq.com/news/2026/05/pip-261-dependency-cooldowns/ "Pip 26.1发布依赖冷却和实验性锁文件支持以应对供应链攻击")
  • ##### [Cloudflare和Stripe让AI代理创建账户、购买域名并部署到生产环境](https://www.infoq.com/news/2026/05/cloudflare-stripe-agent-commerce/ "Cloudflare和Stripe让AI代理创建账户、购买域名并部署到生产环境")
  • ##### [谷歌推出Cloud Fraud Defense作为reCAPTCHA的继任者](https://www.infoq.com/news/2026/05/cloud-fraud-defense-recaptcha/ "谷歌推出Cloud Fraud Defense作为reCAPTCHA的继任者")
  • ##### [使用黄金积木的平台工程如何实现快速平稳的交付](https://www.infoq.com/news/2026/05/platform-golden-bricks/ "使用黄金积木的平台工程如何实现快速平稳的交付")
  • ##### [面向云原生工程师的产品思维](https://www.infoq.com/presentations/product-cloud-native/ "面向云原生工程师的产品思维")
  • ##### [Zoox 加速基于大语言模型的开发者生产力](https://www.infoq.com/presentations/ai-software-development/ "Zoox 加速基于大语言模型的开发者生产力")
  • ##### [Gemma 4 多令牌预测实现高达约 3 倍的令牌生成速度](https://www.infoq.com/news/2026/05/gemma4-multi-token-prediction/ "Gemma 4 多令牌预测实现高达约 3 倍的令牌生成速度")
  • ##### [谷歌推出 Genkit 应用程序的中间件架构](https://www.infoq.com/news/2026/05/google-genkit-middleware/ "谷歌推出 Genkit 应用程序的中间件架构")
  • ##### [InfoQ 推出在线 AI 工程队列和认证项目,助力资深软件从业者](https://www.infoq.com/news/2026/05/ai-engineering-certification-pro/ "InfoQ 推出在线 AI 工程队列和认证项目,助力资深软件从业者")
  • ##### [Discord 通过自动化重构数据库操作以大规模管理 ScyllaDB](https://www.infoq.com/news/2026/05/discord-scylladb-automation/ "Discord 通过自动化重构数据库操作以大规模管理 ScyllaDB")
  • ##### [自动化与事故中的悖论](https://www.infoq.com/presentations/automation-incidents-ai/ "自动化与事故中的悖论")
  • ##### [OpenTofu 1.12:Terraform 从未提供的功能](https://www.infoq.com/news/2026/05/opentofu-release-terraform/ "OpenTofu 1.12:Terraform 从未提供的功能")

**InfoQ** 通讯

每周二发送的 InfoQ 上周内容摘要。加入超过 250,000 名资深开发者的社区。查看示例

  • 快速了解各种创新者和技术早期采用者发布的内容
  • 学习您不知道自己不知道的知识
  • 了解您感兴趣的领域的最新信息

输入您的电子邮件地址

选择您的国家 - [x] 我同意 InfoQ.com 按照本隐私声明处理我的数据。

我们保护您的隐私。

**InfoQ 在线认证计划** 针对资深工程师和架构师的队列 * **专注于架构** 由 Luca Mezzalira 主讲 | 6 月 10 日 * **专注于 AI 工程** 由 Hien Luu 主讲 | 7 月 25 日 带上您工作中遇到的真实架构或 AI 工程挑战。与其他公司资深同行和经验丰富的导师一起,在 5 周内压力测试您的方法。探索即将开始的队列。**立即注册。**

[首页](https://www.infoq.com/ "首页")[创建账户](https://www.infoq.com/reginit.action "创建账户")登录[QCon 大会](http://qconferences.com/ "QCon 大会")活动[为 InfoQ 贡稿](https://www.infoq.com/write-for-infoq/ "为 InfoQ 贡稿")[InfoQ 编辑](https://www.infoq.com/infoq-editors/ "InfoQ 编辑")[关于 InfoQ](https://www.infoq.com/about-infoq/ "关于 InfoQ")[关于 C4Media](https://c4media.com/ "关于 C4Media")[媒体包](https://get.infoq.com/infoq-mediakit/ "媒体包")[InfoQ 开发者营销博客](https://devmarketing.c4media.com/?utm_source=infoq "InfoQ 开发者营销博客")[多样性](https://c4media.com/diversity "多样性")

#### 活动

6 月 1-2 日, 2026

6 月 10 日, 2026

7 月 25 日, 2026

11 月 16-20 日, 2026

#### 关注我们

Youtube 232K 订阅者LinkedIn 26K 关注者Instagram 新开RSS 19K 订阅者X 57.1k 关注者Facebook 21K 粉丝Bluesky 新开

#### 保持联系

InfoQ播客![图像 17: InfoQ播客标志 - 了解最新动态](https://www.infoq.com/podcasts/)工程文化播客![图像 18: 工程文化播客标志 - 了解最新动态](https://www.infoq.com/podcasts/#engineering_culture)软件架构师通讯录![图像 19: 软件架构师通讯录标志 - 了解最新动态](https://www.infoq.com/software-architects-newsletter/)

一般反馈 [feedback@infoq.com](mailto:feedback@infoq.com) 广告 [sales@infoq.com](mailto:sales@infoq.com) 编辑 [editors@infoq.com](mailto:editors@infoq.com) 市场营销 [marketing@infoq.com](mailto:marketing@infoq.com)

InfoQ.com 及所有内容版权 © 2006-2026 C4Media Inc.

隐私声明, 使用条款, Cookie政策

关闭

[BT](https://www.infoq.com/int/bt/ "bt")

AI 可能会生成不准确的信息,请核实重要内容