T
traeai
登录
返回首页
Hugging Face Blog

Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains

9.0Score
Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains

TL;DR · AI 摘要

JetBrains 发布 12B MoE 架构模型 Mellum2,每 token 仅激活 2.5B 参数,推理速度超同类模型 2 倍以上,专为代码与文本任务优化,支持私有部署和 RAG 等高频低延迟场景。

核心要点

  • Mellum2 是 12B 参数 MoE 模型,每 token 仅激活 2.5B 参数,推理效率提升 2x+,适合高吞吐生产环境。
  • 支持路由、RAG、子代理、私有部署等关键用例,尤其适用于多模型系统中的轻量级控制流任务。
  • 采用 Apache 2.0 开源协议,可本地部署处理专有代码或内部数据,架构聚焦文本与代码,不支持多模态。

结构提纲

按章节快速跳转。

  1. §Mellum2 核心特性

    Mellum2 是 12B 参数的 MoE 模型,每 token 仅激活 2.5B 参数,实现高效推理并支持 Apache 2.0 开源协议。

  2. 在代码生成、推理、科学和数学基准上表现与同规模开源模型相当,但推理速度超过 2 倍。

  3. 适用于路由编排、RAG 流水线、子代理任务和私有部署,特别适合多模型系统中的低延迟中间操作。

  4. Mellum2 被设计为“焦点模型”,专注高频任务,旨在提升整个 AI 系统栈的速度、成本和可控性。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Mellum2:12B MoE 高效模型
    • 核心技术
      • MoE 架构,每 token 激活 2.5B 参数
      • Apache 2.0 开源协议
    • 核心优势
      • 推理速度 >2x 同类模型
      • 专注文本与代码,非多模态
    • 典型应用
      • 路由与编排
      • RAG 流水线
      • 子代理与私有部署

金句 / Highlights

值得收藏与分享的关键句。

  • Mellum2 每 token 仅激活 2.5B 参数,实现高吞吐、低延迟推理。

    第 1 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 相比同规模模型,Mellum2 性能相当但推理速度快 2 倍以上。

    第 1 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 我们将 Mellum2 视为“焦点模型”:快速、专注,优化大型 AI 系统内的高频任务。

    ‘为何精确定位模型重要’章节

    ⬇︎ 下载 PNG𝕏 分享到 X
#MoE#JetBrains#大模型#代码生成#RAG
打开原文

标题:介绍 Mellum2:JetBrains 推出的 120 亿参数混合专家模型

来源链接:https://huggingface.co/blog/JetBrains/mellum2-launch

发布时间:2026-06-01T15:45:17.143Z

Markdown 内容:

[![图片 2:Mellum 标志](blob:http://localhost/5ed1bd5bd1b8045052363ca0567bf528)](https://huggingface.co/blog/JetBrains/mellum2-launch)

  • Mellum2 是一个从零开始训练、参数量为 120 亿的混合专家(MoE)模型,支持自然语言与代码。
  • 该模型每个 token 仅激活 25 亿参数,因此在高吞吐量、低延迟推理场景中表现高效。Mellum2 可用于路由、RAG、摘要生成、子代理、高吞吐量编码功能及私有部署。
  • 模型采用 Apache 2.0 许可证发布。
  • 与同规模模型相比,Mellum2 在基准测试中表现具有竞争力,同时推理速度提升超过 2 倍。
  • 在 Hugging Face 下载模型:https://huggingface.co/collections/JetBrains/mellum-2
  • 如需了解架构细节、训练设置、基准测试和评估方法,请阅读完整技术报告:https://arxiv.org/pdf/2605.31268

今天我们正式发布 Mellum2 —— 一款开源的混合专家模型,专为低延迟文本与代码工作负载优化。Mellum 最初作为代码补全模型启动,而 Mellum2 在此基础上扩展至更广泛的自然语言与软件工程任务,同时保持对高效推理与部署能力的关注。现代 AI 系统日益依赖多次模型调用:路由、检索、摘要、规划、验证与工具使用。其中许多操作对延迟敏感,无需调用最大规模的模型。Mellum2 正是针对这些工作负载设计。

基准测试亮点

图片 3:Mellum 2 评测结果

在我们的技术报告中,我们评估了 Mellum2 在代码生成、推理、科学与数学基准上的表现。Mellum2 与同类规模的开源模型性能相当,同时推理速度提升超过 2 倍,适用于高吞吐量生产环境。模型架构方面,Mellum2 是一个混合专家模型:

| 模型 | 总参数量 | 每 token 激活参数量 | 模态 | 许可证 | | --- | --- | --- | --- | --- | | Mellum2 | 120 亿 | 25 亿 | 文本与代码 | Apache 2.0 |

MoE 架构在保持整体模型容量的同时,仅对每个 token 激活部分参数,从而提高推理效率并降低实时工作负载的服务成本。Mellum2 专注于文本与代码,而非多模态任务,这种专业化使其在软件工程工作负载中保持紧凑与高效。

主要应用场景

路由与编排

Mellum2 可作为轻量级路由与编排模型,应用于多模型系统中,包括提示分类、工具选择及中间控制流步骤。

RAG 流水线

该模型非常适合延迟敏感的检索流水线,包括上下文压缩、摘要生成与检索后处理。

子代理

Mellum2 可用于代理子任务,如规划、验证、转换与上下文准备,减少对大型模型进行中间操作的需求。

私有部署

由于 Mellum2 开源且服务效率高,可在涉及专有代码或内部数据的自托管环境中部署。

为何聚焦明确的模型至关重要

随着 AI 系统日趋成熟,最有效的架构正变得不再单一化。单一大型前沿模型虽强大,但生产系统往往需要多个专用组件协同工作:检索器、路由器、代码感知模型、验证器、工具调用器及更大规模的推理模型。我们认为 Mellum2 是一种“焦点”模型——快速、聚焦明确,专为大型 AI 系统内高频任务优化。目标并非取代堆栈中的所有模型,而是让整个堆栈更快、更经济、更易控制。

开始使用 Mellum2

若您正在构建面向软件工程的 AI 系统——无论是集成于 IDE、RAG 流水线、代理工作流,还是私有基础设施——Mellum2 已准备好供您尝试

AI 可能会生成不准确的信息,请核实重要内容