Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains

Hugging Face Blog

Hugging Face Blog2026年6月1日

Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains

9.0Score

TL;DR · AI 摘要

JetBrains 发布 12B MoE 架构模型 Mellum2，每 token 仅激活 2.5B 参数，推理速度超同类模型 2 倍以上，专为代码与文本任务优化，支持私有部署和 RAG 等高频低延迟场景。

核心要点

Mellum2 是 12B 参数 MoE 模型，每 token 仅激活 2.5B 参数，推理效率提升 2x+，适合高吞吐生产环境。
支持路由、RAG、子代理、私有部署等关键用例，尤其适用于多模型系统中的轻量级控制流任务。
采用 Apache 2.0 开源协议，可本地部署处理专有代码或内部数据，架构聚焦文本与代码，不支持多模态。

结构提纲

按章节快速跳转。

§Mellum2 核心特性
Mellum2 是 12B 参数的 MoE 模型，每 token 仅激活 2.5B 参数，实现高效推理并支持 Apache 2.0 开源协议。
·性能与基准测试
在代码生成、推理、科学和数学基准上表现与同规模开源模型相当，但推理速度超过 2 倍。
·核心应用场景
适用于路由编排、RAG 流水线、子代理任务和私有部署，特别适合多模型系统中的低延迟中间操作。
›架构设计哲学
Mellum2 被设计为“焦点模型”，专注高频任务，旨在提升整个 AI 系统栈的速度、成本和可控性。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Mellum2：12B MoE 高效模型
- 核心技术
  - MoE 架构，每 token 激活 2.5B 参数
  - Apache 2.0 开源协议
- 核心优势
  - 推理速度 >2x 同类模型
  - 专注文本与代码，非多模态
- 典型应用
  - 路由与编排
  - RAG 流水线
  - 子代理与私有部署

金句 / Highlights

值得收藏与分享的关键句。

Mellum2 每 token 仅激活 2.5B 参数，实现高吞吐、低延迟推理。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
相比同规模模型，Mellum2 性能相当但推理速度快 2 倍以上。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
我们将 Mellum2 视为“焦点模型”：快速、专注，优化大型 AI 系统内的高频任务。
— ‘为何精确定位模型重要’章节
⬇︎ 下载 PNG 𝕏 分享到 X

#MoE#JetBrains#大模型#代码生成#RAG

打开原文

标题：介绍 Mellum2：JetBrains 推出的 120 亿参数混合专家模型

来源链接：https://huggingface.co/blog/JetBrains/mellum2-launch

发布时间：2026-06-01T15:45:17.143Z

Markdown 内容：

[![图片 2：Mellum 标志](blob:http://localhost/5ed1bd5bd1b8045052363ca0567bf528)](https://huggingface.co/blog/JetBrains/mellum2-launch)

Mellum2 是一个从零开始训练、参数量为 120 亿的混合专家（MoE）模型，支持自然语言与代码。
该模型每个 token 仅激活 25 亿参数，因此在高吞吐量、低延迟推理场景中表现高效。Mellum2 可用于路由、RAG、摘要生成、子代理、高吞吐量编码功能及私有部署。
模型采用 Apache 2.0 许可证发布。
与同规模模型相比，Mellum2 在基准测试中表现具有竞争力，同时推理速度提升超过 2 倍。
在 Hugging Face 下载模型：https://huggingface.co/collections/JetBrains/mellum-2
如需了解架构细节、训练设置、基准测试和评估方法，请阅读完整技术报告：https://arxiv.org/pdf/2605.31268

今天我们正式发布 Mellum2 —— 一款开源的混合专家模型，专为低延迟文本与代码工作负载优化。Mellum 最初作为代码补全模型启动，而 Mellum2 在此基础上扩展至更广泛的自然语言与软件工程任务，同时保持对高效推理与部署能力的关注。现代 AI 系统日益依赖多次模型调用：路由、检索、摘要、规划、验证与工具使用。其中许多操作对延迟敏感，无需调用最大规模的模型。Mellum2 正是针对这些工作负载设计。

基准测试亮点

在我们的技术报告中，我们评估了 Mellum2 在代码生成、推理、科学与数学基准上的表现。Mellum2 与同类规模的开源模型性能相当，同时推理速度提升超过 2 倍，适用于高吞吐量生产环境。模型架构方面，Mellum2 是一个混合专家模型：

| 模型 | 总参数量 | 每 token 激活参数量 | 模态 | 许可证 | | --- | --- | --- | --- | --- | | Mellum2 | 120 亿 | 25 亿 | 文本与代码 | Apache 2.0 |

MoE 架构在保持整体模型容量的同时，仅对每个 token 激活部分参数，从而提高推理效率并降低实时工作负载的服务成本。Mellum2 专注于文本与代码，而非多模态任务，这种专业化使其在软件工程工作负载中保持紧凑与高效。

主要应用场景

路由与编排

Mellum2 可作为轻量级路由与编排模型，应用于多模型系统中，包括提示分类、工具选择及中间控制流步骤。

RAG 流水线

该模型非常适合延迟敏感的检索流水线，包括上下文压缩、摘要生成与检索后处理。

子代理

Mellum2 可用于代理子任务，如规划、验证、转换与上下文准备，减少对大型模型进行中间操作的需求。

私有部署

由于 Mellum2 开源且服务效率高，可在涉及专有代码或内部数据的自托管环境中部署。

为何聚焦明确的模型至关重要

随着 AI 系统日趋成熟，最有效的架构正变得不再单一化。单一大型前沿模型虽强大，但生产系统往往需要多个专用组件协同工作：检索器、路由器、代码感知模型、验证器、工具调用器及更大规模的推理模型。我们认为 Mellum2 是一种“焦点”模型——快速、聚焦明确，专为大型 AI 系统内高频任务优化。目标并非取代堆栈中的所有模型，而是让整个堆栈更快、更经济、更易控制。

开始使用 Mellum2

若您正在构建面向软件工程的 AI 系统——无论是集成于 IDE、RAG 流水线、代理工作流，还是私有基础设施——Mellum2 已准备好供您尝试。