T
traeai
登录
返回首页
Julien Chaumond(@julien_c)

如何在llama.cpp中运行MTP(多token预测)

7.5Score
如何在llama.cpp中运行MTP(多token预测)

TL;DR · AI 摘要

MTP是llama.cpp内置的投机解码新特性,可将大多数用例的token生成速度提升约2倍,通过Dense 27B模型可达~30 tok/sec,MoE模型可达~100 tok/sec。

核心要点

  • MTP是内置于模型本身的投机解码新特性,可将token生成速度提升约2倍
  • Dense 27B模型在个人机器上可达~30 tok/sec,35B A3B MoE模型可达~100 tok/sec
  • 运行需要48GB以上内存(推荐64GB),36GB可通过强量化版本运行

结构提纲

按章节快速跳转。

  1. §MTP简介

    MTP是内置于模型本身的投机解码新特性,可将大多数用例的token生成速度提升约2倍。

  2. 通过brew upgrade llama.cpp安装,或从源码安装直到build 9200发布。

  3. Dense 27B模型可达~30 tok/sec,35B A3B MoE模型可达~100 tok/sec。

  4. 推荐48GB或64GB以上内存/显存,36GB可通过强量化版本运行。

  5. Dense模型使用--spec-type draft-mtp --spec-draft-n-max 2,MoE模型使用--spec-draft-n-max 3。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • llama.cpp MTP 投机解码实战指南
    • MTP技术原理
      • 内置投机解码新特性
      • 约2倍token生成速度提升
    • 模型选择
      • Dense 27B: ~30 tok/sec
      • 35B A3B MoE: ~100 tok/sec
    • 硬件要求
      • 推荐48-64GB内存/显存
      • 36GB可通过强量化运行
    • 运行命令
      • Dense: --spec-draft-n-max 2
      • MoE: --spec-draft-n-max 3

金句 / Highlights

值得收藏与分享的关键句。

  • MTP是内置于模型本身的投机解码新特性,可将大多数用例的token生成速度提升约2倍。

    第 1 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Dense 27B模型在我的机器上达到~30 tok/sec,MoE模型达到令人印象深刻的~100 tok/sec。

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 建议使用48GB或更好的64GB内存或显存,尽管36GB可能通过强量化版本运行。

    第 4 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#llama.cpp#MTP#投机解码#Qwen#大模型推理优化
打开原文

顺便说一下,MTP 是一种内置于模型本身的新型投机解码形式,在大多数使用场景下可以将每秒 token 数提高约 2 倍。2 倍的生成速度 = 真正的游戏规则改变者。 Image 1: 🔥如何运行?brew upgrade llama.cpp # 或者你可能需要从源码安装,直到构建版本 9200 进入你的包管理器:brew install llama.cpp --HEAD 然后选择 Dense 27B 或 35B A3B MoE 中的一个。我个人倾向于使用 Dense 模型,在我的机器上能达到约 30 tok/sec。MoE 当然更快,在我的机器上能达到约 100 tok/sec。确实很快。 Image 2: ⚡️ 两种情况下你可能都需要 48GB 或更好的 64GB RAM 或 VRAM,尽管 36GB 可能也能工作,但需要更强量化的版本。# Dense: llama-server -hf ggml-org/Qwen3.6-27B-MTP-GGUF --spec-type draft-mtp --spec-draft-n-max 2 # MoE: llama-server -hf ggml-org/Qwen3.6-35B-A3B-MTP-GGUF --spec-type draft-mtp --spec-draft-n-max 3 尽情享受吧!

Image 3: Image

AI 可能会生成不准确的信息,请核实重要内容

如何在llama.cpp中运行MTP(多token预测) | Julien Chaumond(@julien_c) | traeai