T
traeai
登录
返回首页
Hugging Face Blog

Introducing North Mini Code: Cohere’s First Model For Developers

8.5Score

TL;DR · AI 摘要

Cohere 发布 North Mini Code,一个 30B 参数的 Mixture-of-Experts 模型,专为开发者设计,在多个代码生成基准测试中表现优异。

核心要点

  • North Mini Code 是 Cohere 首个专为开发者设计的模型,参数量为 30B,其中 3B 为活跃参数。
  • 在 Artificial Analysis 的 Coding Index 中,North Mini Code 得分 33.4,优于 Qwen3.5、Gemma 4 等模型。
  • North Mini Code 使用了 Mixture-of-Experts 架构,并结合了滑动窗口注意力和全局注意力机制。

结构提纲

按章节快速跳转。

  1. Cohere 发布 North Mini Code,一个 30B 参数的 Mixture-of-Experts 模型,专为开发者设计。

  2. North Mini Code 在多个代码生成基准测试中表现优异,得分 33.4,优于多个同类模型。

  3. North Mini Code 是一个基于 Transformer 的 Mixture-of-Experts 模型,结合了滑动窗口注意力和全局注意力机制。

  4. North Mini Code 使用了两阶段的监督微调和基于可验证奖励的强化学习进行训练。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • North Mini Code
    • 模型性能
      • Coding Index 得分 33.4
      • 优于 Qwen3.5、Gemma 4 等模型
    • 模型架构
      • Mixture-of-Experts
      • 滑动窗口注意力 + 全局注意力
    • 训练方法
      • 两阶段监督微调
      • 基于可验证奖励的强化学习

金句 / Highlights

值得收藏与分享的关键句。

  • North Mini Code 在 Artificial Analysis 的 Coding Index 中得分 33.4,优于 Qwen3.5、Gemma 4 等模型。

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • North Mini Code 使用了 Mixture-of-Experts 架构,并结合了滑动窗口注意力和全局注意力机制。

    第 4 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • North Mini Code 使用了两阶段的监督微调和基于可验证奖励的强化学习进行训练。

    第 5 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#Cohere#模型#代码生成#Mixture-of-Experts#AI
打开原文

介绍 North Mini Code:Cohere 首个面向开发者的模型

返回文章列表

[0

[-1

企业

]

文章

发布于 2026 年 6 月 9 日

点赞

53

[

  • +47

Cohere Code Agents 团队

coherecode

关注

CohereLabs

所有合著者如下所示

今天,我们发布了 North Mini Code,这是一个拥有 300 亿参数的 Mixture-of-Experts 模型,其中 30 亿参数处于活跃状态,具备强大的代理式编码能力,可在 Hugging Face 上通过 Apache 2.0 许可证使用。

North Mini Code 是 Cohere 新模型系列中的第一个模型,专门设计和训练用于代理式软件工程任务。

图 1:North Mini Code 在代理式编码任务和复杂代码生成基准测试中的表现,与类似规模的领先开源模型相比。有关我们基准测试方法的详细信息,请参见此处。

North Mini Code 优化用于复杂的软件工程工作流程、基于终端的代理任务和高质量代码生成。在 Artificial Analysis 的编码指数中,North Mini Code 得分为 33.4,优于 Qwen3.5 (35B-A3B)、Gemma 4 (26B-A4B)、Devstral Small 2 (24B Dense),甚至比 Nemotron 3 Super (120B-A12B)、Mistral Small 4 (119B-A6B) 和 Devstral 2 (123B) 等更大规模的模型表现更优。1 它在同类规模中位列最强的开源编码模型之一。

在 OpenCode 中尝试 North Mini Code

现实世界中的代码代理依赖于模型质量和在代理框架中的鲁棒性。我们使用多个框架训练 North Mini Code,而不是优化单一框架。这种方法使 North Mini Code 成为像 OpenCode 这样的编码代理的可靠基础。

架构

图 2:North Mini Code 是一个 Mixture-of-Experts Transformer 解码器,具有交错的滑动窗口自注意力和完整的自注意力。

North Mini Code 是一个基于 Transformer 的稀疏 Mixture-of-Experts 模型,仅使用解码器。它使用我们高效的注意力实现,在滑动窗口注意力(带有 RoPE)和无位置嵌入的全局注意力之间以 3:1 的比例交错排列 [1]。前馈块是一个 MoE 块,包含 128 个专家,每个 token 激活其中的 8 个。每个专家块是一个带有 SwiGLU 激活的 FFN 块。路由器在 top-k 选择之前对 logit 应用 sigmoid 激活函数。我们还在稀疏层之前使用了一个单独的密集层。

用于编码卓越的后训练

图 3:后训练流程包括两个阶段的监督微调(SFT)和一个针对软件工程和终端任务的代理式强化学习(带有可验证奖励)阶段。

我们对 North Mini Code 进行了后训练,采用两阶段级联监督微调(SFT)后,再结合可验证奖励的强化学习(RLVR),重点关注代理式编程。第一阶段的 SFT 数据聚焦于集成在更广泛混合数据中的编程能力,以确保鲁棒性和可用性。该数据混合包括多个领域的编程、推理和指令遵循,其中代码数据集占可训练标记的 70%,代理式工具使用数据占 43%,单轮竞争或科学编程数据占 27%。在第二阶段的 SFT 中,我们使用了仅来自代理式和推理驱动样本的 45 亿个标记的数据混合,其中代码数据占可训练标记的 61%。这种混合涵盖了我们在编程和更广泛的代理任务中最高质量的数据,其中工具调用和完成结果均被验证为可执行且正确。

我们的内部数据管道高度依赖于容器化的代理式编程环境。我们保留了这些环境中的一部分,用于合成 SFT 数据生成和 RLVR。大部分环境基于来自真实世界仓库的软件工程任务,其余则是基于终端的代理式任务,来源于开源和内部数据集。总计,我们在约 5000 个唯一仓库中使用了超过 7 万个可验证任务。我们针对 SWE-Bench [2] 和 SWE-Bench-Pro [3] 的仓库来源对环境进行去重,以避免在评估过程中出现来源泄露 [4]。

我们在 SFT 的第一阶段和第二阶段分别使用了 64K 和 128K 的上下文长度。这种“从长到更长”的级联方法(类似于 [5, 6])使得可以在有价值但较短的数据上进行双侧训练,建立一个稳健的性能基准,随后仅在高质量的验证样本上进行针对性的长上下文训练。如果没有多阶段训练,初始训练阶段的 200 亿个非代码标记通常会主导后期训练中 15 亿个高质量代码标记,导致性能较差,且因不同阶段的数据趋势差异而产生更高的行为冲突。据观察,对样本进行近完整长度分布的训练,其评估期间的最终轨迹长度比仅截断到 64K 的分布更短。

在 SFT 阶段,我们并未将 North Mini Code 优化为定量指标,而是严格采用 SFT 作为 RLVR 的预训练。数据混合优化了采样多样性以及下游阶段的 pass@K(高 K 值)。我们使用样本级过滤,移除任何病理情况,例如无效的工具调用、错误的空白生成、格式错误的特殊标记或幻觉引用。产生不良 RLVR 行为(如低熵、无效结构化生成)的工件或超参数通过消融实验被剔除。最终的 SFT 模型在 SWE-Bench Verified [2] 上实现了 80.2% 的 pass@10,在 Terminal-Bench v2 [7] 上实现了 55.1% 的 pass@10。

跨Harness的鲁棒性

增强鲁棒性可以提高模型在实际软件开发环境中的可用性,在这些环境中,智能体面临多样且不可预测的工具环境。这些环境不仅在提示方式上存在差异,更在基本的工具使用模式上有所不同。例如,SWE-Agent [8] 提供了一个相对丰富的智能体-CLI接口,包含专门的命令(bash、str_replace_editor 和 submit 工具)以及模板化的观察结果;mini-SWE-agent [9] 则简化为仅一个 bash 工具,仅以 shell 的原始 stdout 作为反馈;而 OpenCode [10] 使用了细粒度的、单独输入的工具(edit、grep、todowrite 和 task 等),返回结构化的 JSON 响应。

图 4:为了支持多种智能体编码框架,North Mini Code 在第二阶段的 SFT 过程中暴露于多种编码框架中。

我们通过在第二阶段的 SFT 过程中引入少量额外的基准框架数据(占 SFT 混合数据的 6%,而所选 SWE-Agent 框架占 50%)来解决跨框架的泛化问题。具体来说,这种数据混合在使用 OpenCode 框架进行评估时带来了 10% 的提升,同时在 SWE-Bench Verified 上保持了与 SWE-Agent 相同的性能,这表明跨框架的迁移可以低成本地获得,而不会降低基准性能。值得注意的是,North-Code-Mini 在使用 mini-SWE-Agent 时达到了 61.0% 的 pass@1,这种提升在跨任务、跨框架的设置中自然出现,这表明具有重叠工具能力的框架共享了足够的表示结构以实现正向迁移。我们还观察到在混合框架数据上进行训练时数据冲突极少,这表明不同框架所需技能通常是互补的,而非矛盾的。

同样,官方的 Terminal-Bench 使用其自己的 Terminus 2 框架,其中所有智能体-CLI 交互都通过纯文本聊天回合进行(而不是原生的工具调用)。为了使我们的模型适应 Terminus 2,我们在数据混合中包含少量(少于 20%)的纯文本格式数据,这已被证明足以使模型自然泛化。有趣的是,我们还发现引入各种框架中的足够多样性(类似于数据增强)至关重要,这可以迫使模型正确建立指令与行为之间的联系,而不是简单地重复固定模板而不理解,这一点在框架彼此相似时尤为重要。

用于智能体编码的异步强化学习

编码智能体的 rollout 过程较长且长度高度可变,最慢的轨迹通常比中位数长一个数量级。同步的 RL 循环会因等待这些试验生成而空转,因此我们将采样与学习过程解耦:训练器与一个 vLLM 侧车并行运行,该侧车持续提供 rollout。每隔几个学习步骤(K=4),策略权重会被导出到 vLLM,因此采样器在任何时刻最多只是略微偏离策略。剩余的不匹配则在损失层面进行修正。

为了解决学习者在等待最长 rollout 过程中被阻塞的问题,同时避免任务间数据分布的不平衡,我们使用了基于窗口的先进先出(FIFO)队列(trainer↔sampler)[11]:队列头部的小部分按完成顺序消耗,以清除滞后项,其余部分则保持输入顺序。经验表明,这种方法在不显著影响训练稳定性的情况下,能够恢复大部分按完成顺序的吞吐量。

我们使用 CISPO [12] 进行训练,这是一种带有 token 级重要性采样修正的对数似然目标。CISPO 与 PPO 和 GRPO 的区别在于,重要性权重乘以的是对数似然而不是概率比,并且通过更强的正则化增强了 RLOO [13]。我们是在 token 级别而非 prompt 级别上聚合损失,因此梯度信号会随着轨迹长度而变化,较长的代理轨迹(其中大部分信用分配信号都存在于这里)不会相对于较短的轨迹被降低权重。

单个跨多环境的强化学习训练 – 我们运行了一个跨两个任务环境的单次多环境在线强化学习训练:基于终端的任务和软件工程任务。每个训练批次包含 512 个 rollout,每 prompt 采样 8 个 rollout。所有 rollout 共享一个全局上下文窗口,大小为 128K tokens。为了考虑任务复杂度的差异,每个任务被分配了不同的代理步骤预算。这些按任务分配的预算基于 RLVR 之前的 pass@k 过滤设置,确保预算与每个任务分布的难度适当匹配。我们观察到,给予模型远超必要需求的回合预算会鼓励其在 rollout 中产生不必要的冗长和跳跃性行为。

对于基于终端的任务,我们为代理配置了一个简单的 ReAct 框架,该框架使用基于 Harbor 的 Tmux 会话实现 [14] 的单个终端使用工具;而对于软件工程任务(SWE),我们使用了 SWE-agent [8] 框架。两个环境都为代理提供了预构建的 Docker 镜像,该镜像编码了环境状态、自然语言用户提示以及用于验证的一组单元测试。我们使用内部和开源数据集的组合进行训练,这些数据集经过筛选,仅保留 pass@k 率可接受的问题,即排除了那些容易解决或完全无法解决的实例。我们使用基于单元测试验证器的二进制奖励。此外,模型在生成无效工具调用或无法解析的输出时会获得 0 奖励,这使得在训练初期,幻觉或格式错误的工具调用率显著下降。

图 5:跨多环境的强化学习训练运行提升了模型在 SWE-Bench Verified 和 Terminal-Bench v2 等基准测试中的表现。学习曲线显示在左侧,贯穿整个 RLVR 训练过程。

通过在线强化学习(RL)实现更高的性能和鲁棒性 – RLVR训练将最终模型的性能从SFT初始化提升了7.9%(绝对值)在Terminal-Bench v2中的pass@1指标,以及在SWE-Bench中提升了3.0%(绝对值)。我们观察到,在两个环境中联合训练得到的结果比分别在每个环境中训练更强,并且在分布外任务上的泛化能力更好。除了正确性得分外,我们还观察到代理的鲁棒性有显著提升,其中RLVR模型生成的轨迹更短,无效或失败的工具调用更少。最终模型也表现出更少的重复工具调用循环,能够可靠地通过提交解决方案或回应用户来结束其轨迹。

内部人工评估基准

除了现有的编码基准外,我们还开发了自己的内部基准套件,用于在成对评估中与人类标注者一起衡量模型在分布外问题上的性能。与其他基准设置一致,我们通过Harbor评估了OpenCode中模型迭代的性能。为了了解模型的性能,我们在四个不同的功能上进行了基准测试:

  • 代码解释:模型被要求在README文件中解释给定代码仓库的特定技术方面,或者直接向用户解释。
  • 代码编辑:模型被要求基于现有代码库实现一个功能。
  • 数据可视化:给定数据样本,模型被要求使用特定框架创建某些可视化;不提供额外代码。
  • 从零开始实现:仅给出设计规范和使用的包,模型被要求从零开始创建一个项目,主要关注前端设计。

评估者会得到基于评分标准的问题,以帮助他们评估每个响应的标准,并首先对每个尝试进行评分,然后再在两个模型轨迹之间给出最终的偏好评分。2 我们分享了North Mini Code的评估结果,比较了SFT检查点与最终模型发布检查点的性能。

图6:在85个样本上,人类评估比较RLVR训练后的最终North Mini Code检查点与仅SFT检查点的成对偏好结果。

我们的评估显示,RLVR特别提升了模型在代码编辑任务上的性能,最终模型在所有子集上的总胜率达到了66.1%。

入门

North Mini Code模型可在OpenCode、Cohere API以及HuggingFace上使用,支持BF16和FP8(量化)权重:bf16, fp8

扩展作者列表

代码代理团队和North Mini Code小组:Jay Alammar, Sophia Althammer, Dennis Aumiller, Leon Engländer, Yannis Flet-Berliac, Eden Gilbert, Sarra Habchi, Kylie He, Dhruti Joshi, Jozef Mokrý, David Mora, Josh Netto-Rosen, Deniz Qian, Lawrence Rodgers, Willem Röpke, Tom Sherborne, Ahmet Üstün, Minjie Xu

预训练和推理团队:Diana Abagyan, Sammie Bae, Björn Bebensee, Walter Beller-Morales, Sepideh Shaterian Bidgoli, Bas Büller, David Cairuz, Kris Cao, Roman Castagné, Giannis Chatziveroglou, Tim Chung, Felipe Cruz, Rishit Dholakia, Ali Edalati, Nikolas Gritsch, Kilian Haefeli, Prashant Kumar, Simon Lehnerer, Tony Liu, Alex McKinney, Ekagra Ranjan, Dev Shah, Zewen Shen, Sylvie Shi, Dwarak Talupuru, Komal Teru, Robin Vaaler, Bharat Venkitesh, Donglu Wang, Terrence Zhao, Leo Zhou, Conway Zhu

管理与领导:Phil Blunsom, Nick Frosst, Aidan Gomez, Manoj Govindassamy, Nick Jakobi, Patrick Lewis, Acyr Locatelli, Joelle Pineau, Ivan Zhang

基准测试方法

我们的核心代理能力通过 SWE-Bench Verified、SWE-Bench Pro、Terminal-Bench v2 和 Terminal-Bench Hard 进行评估。North-Code-Mini 的评估使用了 SWE-Bench 的 Swe-Agent 框架 v1.1.0,以及针对 Terminal-Bench v2 的一个简单 ReAct 框架,该框架基于 Harbor 的 Tmux 会话实现,使用了一个终端工具。对于 Terminal Bench Hard,我们直接使用了 Terminus-2,采用与人工分析智能指数相同的评估方法,以比较 North Mini Code 与其他模型的性能。我们遵循各基准测试中指定的官方超时时间和硬件资源限制设置。此外,我们还跟踪 SciCode [15] 中的代码生成能力,该基准测试用于衡量科学问题的编码表现,以及 LiveCodeBench v6 [16],该基准测试要求在不使用工具的情况下具备强大的算法推理能力以评估编码性能。我们使用 3 个不同的种子运行每个基准测试,并报告平均基准测试性能,温度设置为 1.0,top_p 设置为 0.95。

竞争对手结果 – 我们使用了公开报告的竞争对手模型得分,这些得分来自原始报告或人工分析智能指数(如可用)。此外,Gemma4 在代理编码任务上的得分由 Qwen 团队报告 [17]。对于图 1 中标记为 (*) 的任何公开报告中缺失的基准测试结果,我们使用推荐的模型配置内部运行这些测试。

引用

code
@misc{cohere_north_code_mini,
    title = {Introducing {North Mini Code}: Cohere's First Model For Developers},
    url = {cohere.com/blog/north-mini-code},
    author = {{Team Cohere}},
    month = {June},
    year = {2026}
}

参考文献

[1] RoPE to NoPE and Back Again: A New Hybrid Attention Strategy

[2] SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

[3] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

[4] On Leakage of Code Generation Evaluation Datasets

[5] Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

[6] Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

[7] Terminal-Bench: A Benchmark for AI Agents in Terminal Environments

[8] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

[9] https://github.com/SWE-agent/mini-swe-agent

[10] https://github.com/anomalyco/opencode

[11] Forge: Scalable Agent RL Framework and Algorithm

[12] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

[13] Back to Basics: Revisiting REINFORCE-Style Optimization for Learning from Human Feedback in LLMs

[14] Harbor: A Framework for Evaluating and Optimizing Agents and Models in Container Environments

[15] SciCode: A Research Coding Benchmark Curated by Scientists

[16] LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code

[17] Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All

脚注

  1. AAII 编码指数将 Terminal Bench Hard 视为代理编码任务,并将 SciCode 视为科学问题的代码生成基准。↩
  1. 个人评分和偏好均基于五点李克特量表进行评估。↩

本文中提到的模型 2

更多来自该作者的内容

使用 Cohere 模型构建小型黑客马拉松项目

4

2026年6月4日

介绍 Cohere-transcribe:最先进的语音识别技术

46

2026年3月26日

社区

Svngoku

2天前

[2

恭喜!!!

👍

3

+

回复

编辑

预览

通过将文件拖拽到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击此处或粘贴以上传图片

评论 · 注册或登录以评论

  • +41

AI 可能会生成不准确的信息,请核实重要内容