高效推理MiniMax-M3:解锁1M令牌上下文和多模态能力

TL;DR · AI 摘要
Together AI优化了MiniMax M3模型的部署,通过架构和工程创新实现81–125%吞吐量提升。
核心要点
- MiniMax M3支持1M令牌上下文和原生多模态,适合复杂真实任务。
- Together AI通过优化稀疏注意力内核和多模态预处理,实现81–125%吞吐量提升。
- KV-Block-Major稀疏注意力内核显著降低预填充和解码时间。
结构提纲
按章节快速跳转。
- §引言
介绍MiniMax M3模型及其与Together AI的合作,强调其在长上下文和多模态支持方面的突破。
详细描述MiniMax Sparse Attention (MSA)架构,解释其如何通过块稀疏注意力机制降低长上下文处理成本。
- §优化措施
阐述Together AI团队通过KV-Block-Major稀疏注意力内核、多模态预处理网关等技术实现的性能提升。
- §工程挑战
讨论支持1M上下文长度和多模态处理带来的工程挑战,以及Together AI如何解决这些问题。
- §结论
总结Together AI在MiniMax M3部署中的成功经验,验证其作为推理平台的能力。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- MiniMax M3 推理优化
- 架构创新
- MiniMax Sparse Attention (MSA)
- 块稀疏注意力机制
- 性能优化
- KV-Block-Major 稀疏注意力内核
- Rust-based 多模态预处理网关
- 工程挑战
- 1M 上下文长度支持
- 多模态处理复杂性
- 成果验证
- 81–125% 吞吐量提升
- 生产级可靠性
金句 / Highlights
值得收藏与分享的关键句。
MiniMax M3支持1M令牌上下文窗口和原生多模态推理,适用于复杂的真实任务。
Together AI通过优化稀疏注意力内核和多模态预处理,实现了81–125%的吞吐量提升。
KV-Block-Major稀疏注意力内核显著降低了预填充和解码阶段的时间。
使用 MiniMax-M3 实现高效推理:无遗憾地解锁 1M Token 上下文和多模态能力
来源网址: https://www.together.ai/blog/serving-minimax-m3-for-efficient-inference-unlocking-1m-token-context-and-multimodality-without-regrets 发布时间: 2026-06-02
Markdown 内容
- Together AI 是 MiniMax M3 的首选云合作伙伴。 Together AI 将在 MiniMax M3 公开发布后,将其开放权重模型作为开发者端点进行托管。
- 我们的推理和内核团队实现了 显著的工程突破,以高效地提供 M3 模型,其中包括关键优化,例如 KV-Block-Major 稀疏注意力内核、MSA 的新型分页注意力集成、高度优化的索引评分内核以及基于 Rust 的多模态预处理网关,从而在不同并发级别下实现了 81–125% 的吞吐量提升。
- 在生产环境中大规模部署 MiniMax M3 验证了 Together AI 作为推理平台的地位,特别适用于那些推动系统难题前沿并实现实际部署的模型。
MiniMax 发布了其最新的前沿模型 M3,Together AI 非常高兴成为其首选云合作伙伴,使 MiniMax 能够高效地在生产环境中大规模部署 M3。一旦 MiniMax M3 在未来几天内以开放权重模型的形式发布,Together AI 也将直接为开发者提供该模型的端点服务。这一切的背后是我们的推理和内核团队卓越的工作成果,他们推动了深度性能优化,并确保了这款模型在生产环境中的可靠性:支持 1M Token 的上下文窗口、原生多模态功能,以及需要大量工程努力才能高效部署的架构。在这篇文章中,我们将详细介绍我们是如何实现这一目标的。祝贺 MiniMax 团队推出这一具有里程碑意义的模型,并持续创新。
MiniMax M3 是一款集成了前沿编码性能、代理工作流支持和原生多模态推理能力的全能模型。在此基础上,它还设计了支持 1M 上下文长度的功能,并且在经济性上也非常友好,便于部署。这使得它非常适合现实世界中的任务,这些任务通常涉及长文档、代码库、工具使用、图像以及迭代推理等复杂场景。与前一代相比,M3 的部署带来了更多挑战,因为新功能需要在多个维度上进行优化,包括稀疏注意力计算、更大的 KV 缓存管理、多模态处理等。
架构 / 特性
M3 最具创新性的架构变化是 MiniMax Sparse Attention (MSA),它旨在解决 MiniMax M2.7 中出现的注意力计算瓶颈问题。MSA 的块稀疏注意力机制限制了每个查询可以关注的最大令牌数量,从而降低了长上下文处理的成本,并使更长的上下文窗口变得可行。这使得预填充阶段的速度提升了 9 倍以上,解码阶段的速度提升了 15 倍以上。

本质上,MSA 的计算分为两部分:首先是通过评分计算确定每个 KV 组中最相关的 K 块,然后在查询令牌与这些块之间进行密集注意力计算。这种设计在保留 KV 组维度表达能力的同时,仍然限制了每个查询令牌最多可以关注的 KV 令牌数量。注意力计算不再随着上下文长度呈 N^2 的比例增长,因此非常适合处理长上下文任务。
我们测量了在 B200 上,以代理式流量形状(60k 前缀缓存)和并发度为 8 的情况下,内核执行时间的分解情况。MSA 显著降低了每次迭代中实际注意力计算的耗时百分比。

除了注意力架构的变化外,M3 还配备了多模态支持,包括视觉组件和新的图像与视频预处理功能。
鉴于这些根本性的变化,Together AI 与 MiniMax 的工程团队紧密合作,共同应对新兴的挑战。一些主要挑战包括:
- 尽管 MiniMax 的稀疏注意力计算本身非常高效,但从工程角度来看,支持 1M 上下文长度仍然是一个巨大的挑战。
- 视频和图像处理的复杂性天然高于文本分词。
优化措施
KV-Block-Major 稀疏注意力
在预填充阶段,对于长上下文输入,注意力计算仍然是一个重要的因素,因为每个令牌都需要计算 Selected_Block * KV Head Group * Tokens。由于块稀疏注意力的特性,多个查询可以关注相同的键值块。因此,如果我们按每个查询来计算注意力,就会在 GPU 上重复将 KV 数据从 HBM 移动到 SRAM 的操作。通过在外层循环中遍历键值组,并在内层循环中计算查询令牌之间的注意力,可以提高算术强度,因为 KV 缓存只需移动一次。
为了实现这一点,我们需要重新组织 {q, kv block} 到 {kv block, q} 的映射关系,并重新实现注意力内核。由于我们只对 KV 块计算部分输出 O,因此需要基于 Log-Sum-Exp 进行最终的“归约”操作,以重新缩放输出 O 并求和。具体过程如下:

将 MSA 与分页注意力集成
在现代推理引擎中,分页注意力(paged attention)通常用于管理KV缓存上下文。大多数高度优化的注意力内核都支持固定的页面大小。阻止我们使用这些内核的障碍在于,不同KV组所选择的块是不同的。
在Together AI,我们提出了一种新的方法,将MiniMax稀疏注意力(Sparse Attention)集成到引擎中。在解码过程中,我们首先根据选定的块构建一个页面表,将KV组维度扁平化为批次维度,并利用KV缓存张量的步进视图(strided view),为注意力内核提供检索KV页面所需的指针。关键在于步进值:页面地址通过D进行递增以选择虚拟页面的起始位置,而令牌则通过Hkv * D进行递增。这将一个物理张量去交错(deinterleave)为每个头的页面,因此每个扁平化的行现在可以使用不同的页面表。

这种设计使我们能够使用现有的支持GQA(Grouped Query Attention)的注意力内核,而无需从头开始重写一个新的支持稀疏注意力的内核。由于每个查询所选择的块数量有限,查找块到页面映射的内核开销非常低。这种设计为我们带来了5%的解码吞吐量提升。
解码索引评分内核优化
对于解码操作,MiniMax稀疏注意力(MSA)将大部分成本从密集注意力转移到了评分/Top-K索引器上。对于每个解码查询,引擎会将查询侧的索引向量与候选键侧的索引向量进行比较,将每个128个令牌的KV块缩减为一个单一的分数,并仅保留用于真实注意力内核的最高得分块。这一扫描过程是每个生成令牌的关键路径,且在长上下文长度时,候选块的数量会随着上下文长度的增长而增加。解码评分具有小查询索引、长键索引的形状特征。虽然将一批解码查询视为一个更大的矩阵乘法(GEMM)很诱人,但评分/索引步骤不仅仅是密集矩阵乘法:每个请求和K组都有自己的候选块范围、掩码、每块缩减以及Top-K边界。即使将查询拼接在一起,仍然会在GEMM周围留下一个不规则的收集-缩减问题,同时迫使填充并增加额外的书签记录,从而影响关键路径。因此,我们的优化路径采用了AB交换的HMMA布局:128个令牌的键索引块成为MMA的M维度,而查询侧仅填充到较小的N维度。内核阶段包括异步复制128个令牌的K索引,预取下一个页面,使用bfloat16格式的HMMA计算点积,并将每个页面缩减为一个块分数。

多模态预处理在网关层
SMG(Serving Model Gateway)是一个基于Rust的模型网关,位于OpenAI兼容API和推理引擎之间。除了路由和分词之外,SMG还承担了一个对多模态模型特别重要的角色:它在请求到达GPU工作器之前,在CPU上完成所有视觉预处理。
图像和视频输入需要大量的CPU工作才能被视觉编码器使用:下载、解码、帧采样、调整大小以及转换为补丁张量。如果在推理引擎内部执行这些操作,会占用本应用于生成任务的资源。SMG在网关层处理所有这些工作,因此当请求到达GPU时,张量已经准备就绪。

对于M3来说,这意味着:获取视频,使用FFmpeg提取帧,根据FPS(每秒帧数)选择子集,调整大小并归一化,然后将时间维度嵌入其中进行补丁化。最终输出的是一个扁平的补丁张量和一个小的网格元数据张量,并打包成gRPC消息。工作器只需直接运行视觉编码器——无需在其端进行预处理。
此外,SMG的多模态管道围绕Rust特性构建,这些特性将模型特定的预处理逻辑与管道流程分离。添加M3多模态支持意味着实现这些特性并使用M3特有的常量;管道本身并未改变。这种架构适用于大多数具有视觉能力的开源模型,并在不同的推理引擎运行时通用化。
性能结果
自收到MiniMax M3的权重和模型架构以来,我们一直在努力提升推理性能。我们在各种并发级别下实现了81%-125%的提升,针对常见的代理型流量。

在代理型流量下,单独的内核执行分解显示,60K前缀缓存、并发度8以及NVIDIA B200环境下,MSA显著减少了每次迭代中注意力计算所花费的墙钟时间百分比。
未来工作
新架构带来了新的基础设施和工程挑战。在Together AI,我们的目标是提供最佳的推理性能。关于M3,我们正在积极研究的一些主题包括:
- 稀疏注意力架构引入了更多更小的内核,例如对KV块进行Top-K选择、重新映射Q-KV映射到KV-Q等。存在更多的内核融合机会。我们的内核代理研究团队正在积极开发生产级内核。
- CPU缓存卸载k索引和实际KV缓存现在可以解耦。我们正在研究根据Top-K选择按需加载完整k索引和KV缓存的方法。