T
traeai
登录
返回首页
AI HOT 精选

英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%

8.5Score
英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%

TL;DR · AI 摘要

英伟达推出开源框架 Polar,显著提升 Codex 等智能体的性能和效率。

核心要点

  • Polar 框架让 Codex 在 SWE-Bench Verified 测试中的 pass@1 分数提升了 594.74%。
  • Polar 通过在模型 API 边界放置智能体,避免了重写现有框架。
  • Polar 提高了 GPU 利用率,训练效率提升了约 5.39 倍。

结构提纲

按章节快速跳转。

  1. 英伟达发布开源框架 Polar,提升 Codex 等智能体的性能。

  2. Polar 在不改变现有框架的情况下,接入 GRPO 训练。

  3. GRPO 通过奖励信号调整模型策略,提升多步决策任务表现。

  4. Polar 在执行框架和推理服务器之间放置模型智能体,兼容多种风格请求。

  5. Polar 提升了 Codex 等智能体在多个测试中的表现和训练效率。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Polar 框架

金句 / Highlights

值得收藏与分享的关键句。

  • Polar 框架让 Codex 在 SWE-Bench Verified 的 pass@1 分数分别从 3.8% 提升到 26.4%(增涨 594.74%)。

    实验部分

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Polar 通过在模型 API 边界放置智能体,避免了重写现有框架。

    Polar 的核心设计

    ⬇︎ 下载 PNG𝕏 分享到 X
  • prefix_merging 相比 per_request,把 3 个训练步骤中的更新数从 1185 次降到 218 次,墙钟时间从 189.5 分钟缩短到 35.2 分钟,约快 5.39 倍。

    效率方面

    ⬇︎ 下载 PNG𝕏 分享到 X
#英伟达#Polar#AI 框架#Codex#强化学习
打开原文

IT之家 5 月 28 日消息,英伟达研究团队本周发布开源框架 Polar,在不破坏原有工具调用、上下文组织和补丁提交方式的前提下,让 Codex、Claude Code、Qwen Code 等现有智能体框架接入 GRPO(广义相对策略优化)训练。

Image 1: 英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%

IT之家注:GRPO 是一种面向强化学习训练的优化方法,会依据奖励信号调整模型策略,让模型在多步决策任务里学会更优动作。

本文里,GRPO 主要用于代码智能体训练,让模型在真实工具调用和补丁提交流程中持续改进表现。

论文指出智能体强化学习正从单步任务转向长流程任务,比如代码仓库修改、浏览器操作和操作系统交互。这类任务往往依赖现成执行框架,包含多轮调用、工具使用、上下文压缩和子智能体协作。

现有难点在于,这些框架很难直接改写成传统强化学习环境接口,一旦强行接入,还可能丢失关键训练信号。

英伟达 Polar 并非重写智能体框架,聚焦在模型 API 边界放置智能体,基本不改动原有 harness。

harness 指 Codex CLI、Claude Code、Qwen Code、Pi 这类智能体运行外壳。传统强化学习基础设施通常要求把这类逻辑改写到类似 env.init ()、env.step ()、env.reset () 的环境接口里,接入成本高,还可能丢失原生执行细节。

Image 2

Polar 的核心设计,是把智能体与模型之间的接口当作训练边界,而不是把执行框架本身改造成环境。

它在执行框架和推理服务器之间放置模型智能体,兼容 Anthropic、OpenAI、Google 风格请求,转发请求时记录提示词、采样 Token、对数概率和响应内容,再把这些信息重建成可供训练器消费的轨迹。

在系统结构上,Polar 由 rollout server 和 gateway node 组成。前者负责任务提交、会话调度、状态持久化和回调接收;后者负责会话执行全生命周期,包括运行时启动、执行框架准备、轨迹构建、结果评测和资源回收。

论文还把初始化、运行中、后处理拆到独立工作池,并设置 READY 缓冲区,让运行时预热和评测预热在后台并行,减少长尾任务对 GPU 训练的阻塞。

实验部分聚焦软件工程任务。基于同一个 Qwen3.5-4B 底座模型,在 Codex、Claude Code、Qwen Code、Pi 4 种代码执行框架上,Polar 配合 GRPO(组相对策略优化)训练后,在 SWE-Bench Verified 的 pass@1 分数分别从 3.8% 提升到 26.4%(增涨 594.74%)、29.8% 提升到 34.6%、34.6% 提升到 35.2%、34.2% 提升到 40.4%。

在效率方面,prefix_merging 相比 per_request,把 3 个训练步骤中的更新数从 1185 次降到 218 次,墙钟时间从 189.5 分钟缩短到 35.2 分钟,约快 5.39 倍;rollout GPU 平均利用率也从 20.4% 升到 87.7%。

IT之家附上参考地址

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

AI 可能会生成不准确的信息,请核实重要内容