Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains

TL;DR · AI 摘要
JetBrains 发布 12B MoE 架构模型 Mellum2,每 token 仅激活 2.5B 参数,推理速度超同类模型 2 倍以上,专为代码与文本任务优化,支持私有部署和 RAG 等高频低延迟场景。
核心要点
- Mellum2 是 12B 参数 MoE 模型,每 token 仅激活 2.5B 参数,推理效率提升 2x+,适合高吞吐生产环境。
- 支持路由、RAG、子代理、私有部署等关键用例,尤其适用于多模型系统中的轻量级控制流任务。
- 采用 Apache 2.0 开源协议,可本地部署处理专有代码或内部数据,架构聚焦文本与代码,不支持多模态。
结构提纲
按章节快速跳转。
Mellum2 是 12B 参数的 MoE 模型,每 token 仅激活 2.5B 参数,实现高效推理并支持 Apache 2.0 开源协议。
在代码生成、推理、科学和数学基准上表现与同规模开源模型相当,但推理速度超过 2 倍。
适用于路由编排、RAG 流水线、子代理任务和私有部署,特别适合多模型系统中的低延迟中间操作。
Mellum2 被设计为“焦点模型”,专注高频任务,旨在提升整个 AI 系统栈的速度、成本和可控性。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Mellum2:12B MoE 高效模型
- 核心技术
- MoE 架构,每 token 激活 2.5B 参数
- Apache 2.0 开源协议
- 核心优势
- 推理速度 >2x 同类模型
- 专注文本与代码,非多模态
- 典型应用
- 路由与编排
- RAG 流水线
- 子代理与私有部署
金句 / Highlights
值得收藏与分享的关键句。
Mellum2 每 token 仅激活 2.5B 参数,实现高吞吐、低延迟推理。
相比同规模模型,Mellum2 性能相当但推理速度快 2 倍以上。
我们将 Mellum2 视为“焦点模型”:快速、专注,优化大型 AI 系统内的高频任务。
标题:介绍 Mellum2:JetBrains 推出的 120 亿参数混合专家模型
来源链接:https://huggingface.co/blog/JetBrains/mellum2-launch
发布时间:2026-06-01T15:45:17.143Z
Markdown 内容:
[](https://huggingface.co/blog/JetBrains/mellum2-launch)
- Mellum2 是一个从零开始训练、参数量为 120 亿的混合专家(MoE)模型,支持自然语言与代码。
- 该模型每个 token 仅激活 25 亿参数,因此在高吞吐量、低延迟推理场景中表现高效。Mellum2 可用于路由、RAG、摘要生成、子代理、高吞吐量编码功能及私有部署。
- 模型采用 Apache 2.0 许可证发布。
- 与同规模模型相比,Mellum2 在基准测试中表现具有竞争力,同时推理速度提升超过 2 倍。
- 在 Hugging Face 下载模型:https://huggingface.co/collections/JetBrains/mellum-2
- 如需了解架构细节、训练设置、基准测试和评估方法,请阅读完整技术报告:https://arxiv.org/pdf/2605.31268
今天我们正式发布 Mellum2 —— 一款开源的混合专家模型,专为低延迟文本与代码工作负载优化。Mellum 最初作为代码补全模型启动,而 Mellum2 在此基础上扩展至更广泛的自然语言与软件工程任务,同时保持对高效推理与部署能力的关注。现代 AI 系统日益依赖多次模型调用:路由、检索、摘要、规划、验证与工具使用。其中许多操作对延迟敏感,无需调用最大规模的模型。Mellum2 正是针对这些工作负载设计。
基准测试亮点

在我们的技术报告中,我们评估了 Mellum2 在代码生成、推理、科学与数学基准上的表现。Mellum2 与同类规模的开源模型性能相当,同时推理速度提升超过 2 倍,适用于高吞吐量生产环境。模型架构方面,Mellum2 是一个混合专家模型:
| 模型 | 总参数量 | 每 token 激活参数量 | 模态 | 许可证 | | --- | --- | --- | --- | --- | | Mellum2 | 120 亿 | 25 亿 | 文本与代码 | Apache 2.0 |
MoE 架构在保持整体模型容量的同时,仅对每个 token 激活部分参数,从而提高推理效率并降低实时工作负载的服务成本。Mellum2 专注于文本与代码,而非多模态任务,这种专业化使其在软件工程工作负载中保持紧凑与高效。
主要应用场景
路由与编排
Mellum2 可作为轻量级路由与编排模型,应用于多模型系统中,包括提示分类、工具选择及中间控制流步骤。
RAG 流水线
该模型非常适合延迟敏感的检索流水线,包括上下文压缩、摘要生成与检索后处理。
子代理
Mellum2 可用于代理子任务,如规划、验证、转换与上下文准备,减少对大型模型进行中间操作的需求。
私有部署
由于 Mellum2 开源且服务效率高,可在涉及专有代码或内部数据的自托管环境中部署。
为何聚焦明确的模型至关重要
随着 AI 系统日趋成熟,最有效的架构正变得不再单一化。单一大型前沿模型虽强大,但生产系统往往需要多个专用组件协同工作:检索器、路由器、代码感知模型、验证器、工具调用器及更大规模的推理模型。我们认为 Mellum2 是一种“焦点”模型——快速、聚焦明确,专为大型 AI 系统内高频任务优化。目标并非取代堆栈中的所有模型,而是让整个堆栈更快、更经济、更易控制。
开始使用 Mellum2
若您正在构建面向软件工程的 AI 系统——无论是集成于 IDE、RAG 流水线、代理工作流,还是私有基础设施——Mellum2 已准备好供您尝试。