如何在llama.cpp中运行MTP（多token预测）

Julien Chaumond(@julien_c)

Julien Chaumond(@julien_c)2026年5月19日

如何在llama.cpp中运行MTP（多token预测）

7.5Score

TL;DR · AI 摘要

MTP是llama.cpp内置的投机解码新特性，可将大多数用例的token生成速度提升约2倍，通过Dense 27B模型可达~30 tok/sec，MoE模型可达~100 tok/sec。

核心要点

MTP是内置于模型本身的投机解码新特性，可将token生成速度提升约2倍
Dense 27B模型在个人机器上可达~30 tok/sec，35B A3B MoE模型可达~100 tok/sec
运行需要48GB以上内存（推荐64GB），36GB可通过强量化版本运行

结构提纲

按章节快速跳转。

§MTP简介
MTP是内置于模型本身的投机解码新特性，可将大多数用例的token生成速度提升约2倍。
·安装 llama.cpp
通过brew upgrade llama.cpp安装，或从源码安装直到build 9200发布。
›模型选择与性能
Dense 27B模型可达~30 tok/sec，35B A3B MoE模型可达~100 tok/sec。
›硬件要求
推荐48GB或64GB以上内存/显存，36GB可通过强量化版本运行。
›运行命令
Dense模型使用--spec-type draft-mtp --spec-draft-n-max 2，MoE模型使用--spec-draft-n-max 3。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

llama.cpp MTP 投机解码实战指南
- MTP技术原理
  - 内置投机解码新特性
  - 约2倍token生成速度提升
- 模型选择
  - Dense 27B: ~30 tok/sec
  - 35B A3B MoE: ~100 tok/sec
- 硬件要求
  - 推荐48-64GB内存/显存
  - 36GB可通过强量化运行
- 运行命令
  - Dense: --spec-draft-n-max 2
  - MoE: --spec-draft-n-max 3

金句 / Highlights

值得收藏与分享的关键句。

MTP是内置于模型本身的投机解码新特性，可将大多数用例的token生成速度提升约2倍。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
Dense 27B模型在我的机器上达到~30 tok/sec，MoE模型达到令人印象深刻的~100 tok/sec。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
建议使用48GB或更好的64GB内存或显存，尽管36GB可能通过强量化版本运行。
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X

#llama.cpp#MTP#投机解码#Qwen#大模型推理优化

打开原文

顺便说一下，MTP 是一种内置于模型本身的新型投机解码形式，在大多数使用场景下可以将每秒 token 数提高约 2 倍。2 倍的生成速度 = 真正的游戏规则改变者。 Image 1: 🔥 如何运行？brew upgrade llama.cpp # 或者你可能需要从源码安装，直到构建版本 9200 进入你的包管理器：brew install llama.cpp --HEAD 然后选择 Dense 27B 或 35B A3B MoE 中的一个。我个人倾向于使用 Dense 模型，在我的机器上能达到约 30 tok/sec。MoE 当然更快，在我的机器上能达到约 100 tok/sec。确实很快。 Image 2: ⚡️ 两种情况下你可能都需要 48GB 或更好的 64GB RAM 或 VRAM，尽管 36GB 可能也能工作，但需要更强量化的版本。# Dense: llama-server -hf ggml-org/Qwen3.6-27B-MTP-GGUF --spec-type draft-mtp --spec-draft-n-max 2 # MoE: llama-server -hf ggml-org/Qwen3.6-35B-A3B-MTP-GGUF --spec-type draft-mtp --spec-draft-n-max 3 尽情享受吧！