Julien Chaumond(@julien_c)
如何在llama.cpp中运行MTP(多token预测)
7.5Score

TL;DR · AI 摘要
MTP是llama.cpp内置的投机解码新特性,可将大多数用例的token生成速度提升约2倍,通过Dense 27B模型可达~30 tok/sec,MoE模型可达~100 tok/sec。
核心要点
- MTP是内置于模型本身的投机解码新特性,可将token生成速度提升约2倍
- Dense 27B模型在个人机器上可达~30 tok/sec,35B A3B MoE模型可达~100 tok/sec
- 运行需要48GB以上内存(推荐64GB),36GB可通过强量化版本运行
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- llama.cpp MTP 投机解码实战指南
- MTP技术原理
- 内置投机解码新特性
- 约2倍token生成速度提升
- 模型选择
- Dense 27B: ~30 tok/sec
- 35B A3B MoE: ~100 tok/sec
- 硬件要求
- 推荐48-64GB内存/显存
- 36GB可通过强量化运行
- 运行命令
- Dense: --spec-draft-n-max 2
- MoE: --spec-draft-n-max 3
金句 / Highlights
值得收藏与分享的关键句。
MTP是内置于模型本身的投机解码新特性,可将大多数用例的token生成速度提升约2倍。
Dense 27B模型在我的机器上达到~30 tok/sec,MoE模型达到令人印象深刻的~100 tok/sec。
建议使用48GB或更好的64GB内存或显存,尽管36GB可能通过强量化版本运行。
#llama.cpp#MTP#投机解码#Qwen#大模型推理优化
打开原文顺便说一下,MTP 是一种内置于模型本身的新型投机解码形式,在大多数使用场景下可以将每秒 token 数提高约 2 倍。2 倍的生成速度 = 真正的游戏规则改变者。 如何运行?brew upgrade llama.cpp # 或者你可能需要从源码安装,直到构建版本 9200 进入你的包管理器:brew install llama.cpp --HEAD 然后选择 Dense 27B 或 35B A3B MoE 中的一个。我个人倾向于使用 Dense 模型,在我的机器上能达到约 30 tok/sec。MoE 当然更快,在我的机器上能达到约 100 tok/sec。确实很快。
两种情况下你可能都需要 48GB 或更好的 64GB RAM 或 VRAM,尽管 36GB 可能也能工作,但需要更强量化的版本。# Dense: llama-server -hf ggml-org/Qwen3.6-27B-MTP-GGUF --spec-type draft-mtp --spec-draft-n-max 2 # MoE: llama-server -hf ggml-org/Qwen3.6-35B-A3B-MTP-GGUF --spec-type draft-mtp --spec-draft-n-max 3 尽情享受吧!