T
traeai
登录
返回首页
meng shao(@shao__meng)

Cohere 发布首个开源编程模型「North Mini Code」 小参数、高效率、专做 Agent 编程 参数:MoE 架构(30B, 3B),128专家,每 token 激活 8 个 上下文:...

8.5Score
Cohere 发布首个开源编程模型「North Mini Code」

小参数、高效率、专做 Agent 编程
参数:MoE 架构(30B, 3B),128专家,每 token 激活 8 个
上下文:...

TL;DR · AI 摘要

Cohere 发布开源编程模型 North Mini Code,采用 MoE 架构,专为 Agent 编程优化,性能接近大模型。

核心要点

  • North Mini Code 使用 MoE 架构,参数规模为 30B 和 3B,每 token 激活 8 个专家。
  • 模型在 SWE-Bench Verified pass@10 达到 80.2%,RL 后性能进一步提升。
  • 推理速度比 Devstral Small 2 高约 2.8 倍,词间延迟降低 30%。

结构提纲

按章节快速跳转。

  1. Cohere 发布开源编程模型 North Mini Code,采用 MoE 架构,参数规模为 30B 和 3B。

  2. 模型采用 SFT 和 RLVR 算法,训练数据来自 7 万+ 可验证任务和 5000 个仓库。

  3. 模型在 SWE-Bench Verified pass@10 达到 80.2%,RL 后性能进一步提升。

  4. 模型推理速度比 Devstral Small 2 高约 2.8 倍,词间延迟降低 30%。

  5. 模型专为 Agent 编程优化,适用于子 Agent 编排、系统架构理解、Code Review 等场景。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • North Mini Code
    • 模型架构
      • MoE 架构
      • 参数规模:30B / 3B
    • 训练方法
      • SFT 和 RLVR 算法
      • 训练数据:7 万+ 任务,5000 个仓库
    • 性能表现
      • SWE-Bench Verified pass@10 = 80.2%
      • 推理速度:2.8× Devstral Small 2

金句 / Highlights

值得收藏与分享的关键句。

#Cohere#开源模型#编程模型#Agent#MoE
打开原文

meng shao on X: "Cohere 发布首个开源编程模型「North Mini Code」 小参数、高效率、专做 Agent 编程 参数:MoE 架构(30B, 3B),128专家,每 token 激活 8 个 上下文:256K 输入 / 64K 输出 最低硬件:1× H100(FP8) 官方发布 https://t.co/H5uqf32SyV HuggingFace https://t.co/DloyaGnA9U # https://t.co/6cf5jwkaCk" / X

meng shao

@shao__meng

Cohere 发布首个开源编程模型「North Mini Code」 小参数、高效率、专做 Agent 编程 参数:MoE 架构(30B, 3B),128专家,每 token 激活 8 个 上下文:256K 输入 / 64K 输出 最低硬件:1× H100(FP8) 官方发布

cohere.com/blog/north-min…

HuggingFace

huggingface.co/CohereLabs/Nor…

#

SFT · 一阶段(64K):代码约 70% 可训练 token(43% Agent 工具调用 + 27% 单轮竞赛/科学编程),混推理与指令跟随 · 二阶段(128K):约 4.5B token,61% 为代码,全为 Agent/推理样本,工具调用与完成结果均校验可执行 · 数据来自 7 万+ 可验证任务、约 5000 个仓库;与 SWE-Bench 源去重,防泄漏 · SFT 目标不是刷榜,而是为 RL 打底:优化 pass@K 与采样多样性 2. RLVR(可验证奖励强化学习) · 算法:CISPO(token 级重要性采样,长轨迹不被短样本稀释) · 异步采样:vLLM sidecar + 窗口 FIFO 队列,缓解 Agent rollout 长度差异 · 双环境联合训练:Terminal(ReAct + bash)+ SWE(SWE-Agent) · 奖励:单元测试二值奖励;无效工具调用/不可解析输出得 0 分 3. 跨 Harness 泛化 · 训练时暴露多种 Agent 脚手架(SWE-Agent、mini-SWE、OpenCode 等) · 二阶段 SFT 中约 6% 为其他 benchmark harness 数据 · OpenCode 评估约 +10%;mini-SWE-Agent 上 pass@1 达 61.0%,属「免费迁移」 SFT 结束时:SWE-Bench Verified pass@10 = 80.2%,Terminal-Bench v2 pass@10 = 55.1%。RL 后 Terminal pass@1 +7.9%,SWE pass@1 +3.0%;轨迹更短、无效工具调用更少。 # 基准表现 Agent 编程(核心卖点) · Artificial Analysis Coding Index:33.4 · 同量级开源中领先 Qwen3.5 35B-A3B、Gemma 4、Devstral Small 2 等 · 甚至超过 Nemotron 3 Super(120B)、Mistral Small 4(119B)等更大模型 · 仍略低于 Qwen3.6 35B-A3B(约 35.2) 评测集:SWE-Bench Verified/Pro、Terminal-Bench v2/Hard、SciCode、LiveCodeBench v6 Harness:SWE-Agent v1.1.0、ReAct+Tmux、Terminus-2 等;temperature=1.0,top_p=0.95,3 seed 平均 非编程 Agent 任务偏弱(第三方汇总):GDPval-AA ~14%,τ²-Bench Telecom ~37%,Agentic Index 综合约 21.7——专精编程,非通用 Agent。 推理速度(对比 Devstral Small 2,Cohere 内部测试) · 同并发下输出吞吐最高约 2.8× · 词间延迟约 -30% · TTFT 略逊于 Devstral Small 2 # Agent 能力设计 模型原生支持交错思考与工具调用,格式类似 Cohere Command 系列: <|START_THINKING|> ... <|END_THINKING|> <|START_ACTION|> [JSON tool calls] <|END_ACTION|> <|START_TOOL_RESULT|> ... <|END_TOOL_RESULT|> <|START_RESPONSE|> ... <|END_RESPONSE|> 使用要点: · 必须把 reasoning/thinking 一并写入对话历史,否则效果下降 · 工具描述建议用 JSON Schema · 推荐采样:temperature=1.0,top_p=0.95 · 需较新 Transformers 源码、vLLM main + cohere_melody>=0.9.0 面向场景:子 Agent 编排、系统架构理解、Code Review、终端操作、多步软件工程。

Cohere

@cohere

19h

Introducing Cohere's first open-source coding model: North Mini Code Small & efficient, designed for agentic performance and built for community input.

Nick Frosst

00:00

1:20 AM · Jun 10, 2026

1.1K

Views

1

6

5

Read 1 reply

AI 可能会生成不准确的信息,请核实重要内容