Cohere 发布首个开源编程模型「North Mini Code」 小参数、高效率、专做 Agent 编程 参数:MoE 架构(30B, 3B),128专家,每 token 激活 8 个 上下文:...

TL;DR · AI 摘要
Cohere 发布开源编程模型 North Mini Code,采用 MoE 架构,专为 Agent 编程优化,性能接近大模型。
核心要点
- North Mini Code 使用 MoE 架构,参数规模为 30B 和 3B,每 token 激活 8 个专家。
- 模型在 SWE-Bench Verified pass@10 达到 80.2%,RL 后性能进一步提升。
- 推理速度比 Devstral Small 2 高约 2.8 倍,词间延迟降低 30%。
结构提纲
按章节快速跳转。
Cohere 发布开源编程模型 North Mini Code,采用 MoE 架构,参数规模为 30B 和 3B。
- ·训练方法
模型采用 SFT 和 RLVR 算法,训练数据来自 7 万+ 可验证任务和 5000 个仓库。
- ›性能表现
模型在 SWE-Bench Verified pass@10 达到 80.2%,RL 后性能进一步提升。
- ·推理速度
模型推理速度比 Devstral Small 2 高约 2.8 倍,词间延迟降低 30%。
- §应用场景
模型专为 Agent 编程优化,适用于子 Agent 编排、系统架构理解、Code Review 等场景。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- North Mini Code
- 模型架构
- MoE 架构
- 参数规模:30B / 3B
- 训练方法
- SFT 和 RLVR 算法
- 训练数据:7 万+ 任务,5000 个仓库
- 性能表现
- SWE-Bench Verified pass@10 = 80.2%
- 推理速度:2.8× Devstral Small 2
金句 / Highlights
值得收藏与分享的关键句。
North Mini Code 使用 MoE 架构,参数规模为 30B 和 3B,每 token 激活 8 个专家。
模型在 SWE-Bench Verified pass@10 达到 80.2%,RL 后性能进一步提升。
推理速度比 Devstral Small 2 高约 2.8 倍,词间延迟降低 30%。
meng shao on X: "Cohere 发布首个开源编程模型「North Mini Code」 小参数、高效率、专做 Agent 编程 参数:MoE 架构(30B, 3B),128专家,每 token 激活 8 个 上下文:256K 输入 / 64K 输出 最低硬件:1× H100(FP8) 官方发布 https://t.co/H5uqf32SyV HuggingFace https://t.co/DloyaGnA9U # https://t.co/6cf5jwkaCk" / X
meng shao
@shao__meng
Cohere 发布首个开源编程模型「North Mini Code」 小参数、高效率、专做 Agent 编程 参数:MoE 架构(30B, 3B),128专家,每 token 激活 8 个 上下文:256K 输入 / 64K 输出 最低硬件:1× H100(FP8) 官方发布
cohere.com/blog/north-min…
HuggingFace
huggingface.co/CohereLabs/Nor…
#
SFT · 一阶段(64K):代码约 70% 可训练 token(43% Agent 工具调用 + 27% 单轮竞赛/科学编程),混推理与指令跟随 · 二阶段(128K):约 4.5B token,61% 为代码,全为 Agent/推理样本,工具调用与完成结果均校验可执行 · 数据来自 7 万+ 可验证任务、约 5000 个仓库;与 SWE-Bench 源去重,防泄漏 · SFT 目标不是刷榜,而是为 RL 打底:优化 pass@K 与采样多样性 2. RLVR(可验证奖励强化学习) · 算法:CISPO(token 级重要性采样,长轨迹不被短样本稀释) · 异步采样:vLLM sidecar + 窗口 FIFO 队列,缓解 Agent rollout 长度差异 · 双环境联合训练:Terminal(ReAct + bash)+ SWE(SWE-Agent) · 奖励:单元测试二值奖励;无效工具调用/不可解析输出得 0 分 3. 跨 Harness 泛化 · 训练时暴露多种 Agent 脚手架(SWE-Agent、mini-SWE、OpenCode 等) · 二阶段 SFT 中约 6% 为其他 benchmark harness 数据 · OpenCode 评估约 +10%;mini-SWE-Agent 上 pass@1 达 61.0%,属「免费迁移」 SFT 结束时:SWE-Bench Verified pass@10 = 80.2%,Terminal-Bench v2 pass@10 = 55.1%。RL 后 Terminal pass@1 +7.9%,SWE pass@1 +3.0%;轨迹更短、无效工具调用更少。 # 基准表现 Agent 编程(核心卖点) · Artificial Analysis Coding Index:33.4 · 同量级开源中领先 Qwen3.5 35B-A3B、Gemma 4、Devstral Small 2 等 · 甚至超过 Nemotron 3 Super(120B)、Mistral Small 4(119B)等更大模型 · 仍略低于 Qwen3.6 35B-A3B(约 35.2) 评测集:SWE-Bench Verified/Pro、Terminal-Bench v2/Hard、SciCode、LiveCodeBench v6 Harness:SWE-Agent v1.1.0、ReAct+Tmux、Terminus-2 等;temperature=1.0,top_p=0.95,3 seed 平均 非编程 Agent 任务偏弱(第三方汇总):GDPval-AA ~14%,τ²-Bench Telecom ~37%,Agentic Index 综合约 21.7——专精编程,非通用 Agent。 推理速度(对比 Devstral Small 2,Cohere 内部测试) · 同并发下输出吞吐最高约 2.8× · 词间延迟约 -30% · TTFT 略逊于 Devstral Small 2 # Agent 能力设计 模型原生支持交错思考与工具调用,格式类似 Cohere Command 系列: <|START_THINKING|> ... <|END_THINKING|> <|START_ACTION|> [JSON tool calls] <|END_ACTION|> <|START_TOOL_RESULT|> ... <|END_TOOL_RESULT|> <|START_RESPONSE|> ... <|END_RESPONSE|> 使用要点: · 必须把 reasoning/thinking 一并写入对话历史,否则效果下降 · 工具描述建议用 JSON Schema · 推荐采样:temperature=1.0,top_p=0.95 · 需较新 Transformers 源码、vLLM main + cohere_melody>=0.9.0 面向场景:子 Agent 编排、系统架构理解、Code Review、终端操作、多步软件工程。
Cohere
@cohere
19h
Introducing Cohere's first open-source coding model: North Mini Code Small & efficient, designed for agentic performance and built for community input.
Nick Frosst
00:00
1:20 AM · Jun 10, 2026
1.1K
Views
1
6
5
Read 1 reply