高效推理MiniMax-M3：解锁1M令牌上下文和多模态能力

Together AI Blog

Together AI Blog2026年6月2日

高效推理MiniMax-M3：解锁1M令牌上下文和多模态能力

8.7Score

TL;DR · AI 摘要

Together AI优化了MiniMax M3模型的部署，通过架构和工程创新实现81–125%吞吐量提升。

核心要点

MiniMax M3支持1M令牌上下文和原生多模态，适合复杂真实任务。
Together AI通过优化稀疏注意力内核和多模态预处理，实现81–125%吞吐量提升。
KV-Block-Major稀疏注意力内核显著降低预填充和解码时间。

结构提纲

按章节快速跳转。

§引言
介绍MiniMax M3模型及其与Together AI的合作，强调其在长上下文和多模态支持方面的突破。
§架构与特性
详细描述MiniMax Sparse Attention (MSA)架构，解释其如何通过块稀疏注意力机制降低长上下文处理成本。
§优化措施
阐述Together AI团队通过KV-Block-Major稀疏注意力内核、多模态预处理网关等技术实现的性能提升。
§工程挑战
讨论支持1M上下文长度和多模态处理带来的工程挑战，以及Together AI如何解决这些问题。
§结论
总结Together AI在MiniMax M3部署中的成功经验，验证其作为推理平台的能力。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

MiniMax M3 推理优化
- 架构创新
  - MiniMax Sparse Attention (MSA)
  - 块稀疏注意力机制
- 性能优化
  - KV-Block-Major 稀疏注意力内核
  - Rust-based 多模态预处理网关
- 工程挑战
  - 1M 上下文长度支持
  - 多模态处理复杂性
- 成果验证
  - 81–125% 吞吐量提升
  - 生产级可靠性

金句 / Highlights

值得收藏与分享的关键句。

MiniMax M3支持1M令牌上下文窗口和原生多模态推理，适用于复杂的真实任务。
— 第3段
⬇︎ 下载 PNG 𝕏 分享到 X
Together AI通过优化稀疏注意力内核和多模态预处理，实现了81–125%的吞吐量提升。
— 第2段
⬇︎ 下载 PNG 𝕏 分享到 X
KV-Block-Major稀疏注意力内核显著降低了预填充和解码阶段的时间。
— 第6段
⬇︎ 下载 PNG 𝕏 分享到 X

#MiniMax#M3#稀疏注意力#多模态#推理优化

打开原文

使用 MiniMax-M3 实现高效推理：无遗憾地解锁 1M Token 上下文和多模态能力

来源网址: https://www.together.ai/blog/serving-minimax-m3-for-efficient-inference-unlocking-1m-token-context-and-multimodality-without-regrets 发布时间: 2026-06-02

Markdown 内容

Together AI 是 MiniMax M3 的首选云合作伙伴。 Together AI 将在 MiniMax M3 公开发布后，将其开放权重模型作为开发者端点进行托管。
我们的推理和内核团队实现了 显著的工程突破，以高效地提供 M3 模型，其中包括关键优化，例如 KV-Block-Major 稀疏注意力内核、MSA 的新型分页注意力集成、高度优化的索引评分内核以及基于 Rust 的多模态预处理网关，从而在不同并发级别下实现了 81–125% 的吞吐量提升。
在生产环境中大规模部署 MiniMax M3 验证了 Together AI 作为推理平台的地位，特别适用于那些推动系统难题前沿并实现实际部署的模型。

MiniMax 发布了其最新的前沿模型 M3，Together AI 非常高兴成为其首选云合作伙伴，使 MiniMax 能够高效地在生产环境中大规模部署 M3。一旦 MiniMax M3 在未来几天内以开放权重模型的形式发布，Together AI 也将直接为开发者提供该模型的端点服务。这一切的背后是我们的推理和内核团队卓越的工作成果，他们推动了深度性能优化，并确保了这款模型在生产环境中的可靠性：支持 1M Token 的上下文窗口、原生多模态功能，以及需要大量工程努力才能高效部署的架构。在这篇文章中，我们将详细介绍我们是如何实现这一目标的。祝贺 MiniMax 团队推出这一具有里程碑意义的模型，并持续创新。

MiniMax M3 是一款集成了前沿编码性能、代理工作流支持和原生多模态推理能力的全能模型。在此基础上，它还设计了支持 1M 上下文长度的功能，并且在经济性上也非常友好，便于部署。这使得它非常适合现实世界中的任务，这些任务通常涉及长文档、代码库、工具使用、图像以及迭代推理等复杂场景。与前一代相比，M3 的部署带来了更多挑战，因为新功能需要在多个维度上进行优化，包括稀疏注意力计算、更大的 KV 缓存管理、多模态处理等。

架构 / 特性

M3 最具创新性的架构变化是 MiniMax Sparse Attention (MSA)，它旨在解决 MiniMax M2.7 中出现的注意力计算瓶颈问题。MSA 的块稀疏注意力机制限制了每个查询可以关注的最大令牌数量，从而降低了长上下文处理的成本，并使更长的上下文窗口变得可行。这使得预填充阶段的速度提升了 9 倍以上，解码阶段的速度提升了 15 倍以上。

本质上，MSA 的计算分为两部分：首先是通过评分计算确定每个 KV 组中最相关的 K 块，然后在查询令牌与这些块之间进行密集注意力计算。这种设计在保留 KV 组维度表达能力的同时，仍然限制了每个查询令牌最多可以关注的 KV 令牌数量。注意力计算不再随着上下文长度呈 N^2 的比例增长，因此非常适合处理长上下文任务。

我们测量了在 B200 上，以代理式流量形状（60k 前缀缓存）和并发度为 8 的情况下，内核执行时间的分解情况。MSA 显著降低了每次迭代中实际注意力计算的耗时百分比。

除了注意力架构的变化外，M3 还配备了多模态支持，包括视觉组件和新的图像与视频预处理功能。

鉴于这些根本性的变化，Together AI 与 MiniMax 的工程团队紧密合作，共同应对新兴的挑战。一些主要挑战包括：

尽管 MiniMax 的稀疏注意力计算本身非常高效，但从工程角度来看，支持 1M 上下文长度仍然是一个巨大的挑战。
视频和图像处理的复杂性天然高于文本分词。

优化措施

KV-Block-Major 稀疏注意力

在预填充阶段，对于长上下文输入，注意力计算仍然是一个重要的因素，因为每个令牌都需要计算 Selected_Block * KV Head Group * Tokens。由于块稀疏注意力的特性，多个查询可以关注相同的键值块。因此，如果我们按每个查询来计算注意力，就会在 GPU 上重复将 KV 数据从 HBM 移动到 SRAM 的操作。通过在外层循环中遍历键值组，并在内层循环中计算查询令牌之间的注意力，可以提高算术强度，因为 KV 缓存只需移动一次。

为了实现这一点，我们需要重新组织 {q, kv block} 到 {kv block, q} 的映射关系，并重新实现注意力内核。由于我们只对 KV 块计算部分输出 O，因此需要基于 Log-Sum-Exp 进行最终的“归约”操作，以重新缩放输出 O 并求和。具体过程如下：

将 MSA 与分页注意力集成

在现代推理引擎中，分页注意力（paged attention）通常用于管理KV缓存上下文。大多数高度优化的注意力内核都支持固定的页面大小。阻止我们使用这些内核的障碍在于，不同KV组所选择的块是不同的。

在Together AI，我们提出了一种新的方法，将MiniMax稀疏注意力（Sparse Attention）集成到引擎中。在解码过程中，我们首先根据选定的块构建一个页面表，将KV组维度扁平化为批次维度，并利用KV缓存张量的步进视图（strided view），为注意力内核提供检索KV页面所需的指针。关键在于步进值：页面地址通过D进行递增以选择虚拟页面的起始位置，而令牌则通过Hkv * D进行递增。这将一个物理张量去交错（deinterleave）为每个头的页面，因此每个扁平化的行现在可以使用不同的页面表。

这种设计使我们能够使用现有的支持GQA（Grouped Query Attention）的注意力内核，而无需从头开始重写一个新的支持稀疏注意力的内核。由于每个查询所选择的块数量有限，查找块到页面映射的内核开销非常低。这种设计为我们带来了5%的解码吞吐量提升。

解码索引评分内核优化

对于解码操作，MiniMax稀疏注意力（MSA）将大部分成本从密集注意力转移到了评分/Top-K索引器上。对于每个解码查询，引擎会将查询侧的索引向量与候选键侧的索引向量进行比较，将每个128个令牌的KV块缩减为一个单一的分数，并仅保留用于真实注意力内核的最高得分块。这一扫描过程是每个生成令牌的关键路径，且在长上下文长度时，候选块的数量会随着上下文长度的增长而增加。解码评分具有小查询索引、长键索引的形状特征。虽然将一批解码查询视为一个更大的矩阵乘法（GEMM）很诱人，但评分/索引步骤不仅仅是密集矩阵乘法：每个请求和K组都有自己的候选块范围、掩码、每块缩减以及Top-K边界。即使将查询拼接在一起，仍然会在GEMM周围留下一个不规则的收集-缩减问题，同时迫使填充并增加额外的书签记录，从而影响关键路径。因此，我们的优化路径采用了AB交换的HMMA布局：128个令牌的键索引块成为MMA的M维度，而查询侧仅填充到较小的N维度。内核阶段包括异步复制128个令牌的K索引，预取下一个页面，使用bfloat16格式的HMMA计算点积，并将每个页面缩减为一个块分数。

多模态预处理在网关层

SMG（Serving Model Gateway）是一个基于Rust的模型网关，位于OpenAI兼容API和推理引擎之间。除了路由和分词之外，SMG还承担了一个对多模态模型特别重要的角色：它在请求到达GPU工作器之前，在CPU上完成所有视觉预处理。

图像和视频输入需要大量的CPU工作才能被视觉编码器使用：下载、解码、帧采样、调整大小以及转换为补丁张量。如果在推理引擎内部执行这些操作，会占用本应用于生成任务的资源。SMG在网关层处理所有这些工作，因此当请求到达GPU时，张量已经准备就绪。

对于M3来说，这意味着：获取视频，使用FFmpeg提取帧，根据FPS（每秒帧数）选择子集，调整大小并归一化，然后将时间维度嵌入其中进行补丁化。最终输出的是一个扁平的补丁张量和一个小的网格元数据张量，并打包成gRPC消息。工作器只需直接运行视觉编码器——无需在其端进行预处理。

此外，SMG的多模态管道围绕Rust特性构建，这些特性将模型特定的预处理逻辑与管道流程分离。添加M3多模态支持意味着实现这些特性并使用M3特有的常量；管道本身并未改变。这种架构适用于大多数具有视觉能力的开源模型，并在不同的推理引擎运行时通用化。

性能结果

自收到MiniMax M3的权重和模型架构以来，我们一直在努力提升推理性能。我们在各种并发级别下实现了81%-125%的提升，针对常见的代理型流量。

在代理型流量下，单独的内核执行分解显示，60K前缀缓存、并发度8以及NVIDIA B200环境下，MSA显著减少了每次迭代中注意力计算所花费的墙钟时间百分比。

未来工作

新架构带来了新的基础设施和工程挑战。在Together AI，我们的目标是提供最佳的推理性能。关于M3，我们正在积极研究的一些主题包括：

稀疏注意力架构引入了更多更小的内核，例如对KV块进行Top-K选择、重新映射Q-KV映射到KV-Q等。存在更多的内核融合机会。我们的内核代理研究团队正在积极开发生产级内核。

CPU缓存卸载k索引和实际KV缓存现在可以解耦。我们正在研究根据Top-K选择按需加载完整k索引和KV缓存的方法。