博亚体育BoYa中国世界杯授权竞彩网

博亚体育BoYa中国世界杯授权竞彩网 英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%

博亚体育BoYa中国世界杯授权竞彩网 英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%

导语:英伟达考虑团队本周发布开源框架 Polar,在不阻碍原有器具调用、迂回文组织和补丁提交表情的前提下,让 Codex、Claude Code、Qwen Code 等现存智能体框架接入 GRPO(广义相对战略优化)锻真金不怕火。

IT 之家  5 月 28 日音信,英伟达考虑团队本周发布开源框架 Polar,在不阻碍原有器具调用、迂回文组织和补丁提交表情的前提下,让 Codex、Claude Code、Qwen Code 等现存智能体框架接入 GRPO(广义相对战略优化)锻真金不怕火。

IT 之家注:GRPO 是一种面向强化学习锻真金不怕火的优化步调,会依据奖励信号治愈模子战略,让模子在多步有贪图任务里学会更优动作。

本文里,GRPO 主要用于代码智能体锻真金不怕火,让模子在真确器具调用和补丁提交过程中捏续修订施展。

2026世界杯预选赛下单中国体彩官网

论文指出智能体强化学习正从单步任务转向长过程任务,比如代码仓库修改、浏览器操作和操作系统交互。这类任务时时依赖现成推行框架,包含多轮调用、器具使用、迂回文压缩和子智能体迎合。

现存难点在于,这些框架很难获胜改写成传统强化学习环境接口,一朝强行接入,还可能丢失重要锻真金不怕火信号。

英伟达 Polar 并非重写智能体框架,聚焦在模子 API 限制放手智能体,基本不改换原有 harness。

harness 指 Codex CLI、Claude Code、Qwen Code、Pi 这类智能体运行外壳。传统强化学习基础设施时时条款把这类逻辑改写到访佛   env.init   ( ) 、env.step   ( ) 、env.reset   ( ) 的环境接口里,接入资本高,博亚体育BoYa中国世界杯授权竞彩网还可能丢失原生推行细节。

Polar 的中枢瞎想,是把智能体与模子之间的接口算作锻真金不怕火限制,而不是把推行框架自己改酿成环境。

它在推行框架和推理劳动器之间放手模子智能体,兼容 Anthropic、OpenAI、Google 格调申请,转发申请时纪录教导词、采样 Token、对数概率和反应本色,再把这些信息重建成可供锻真金不怕火器虚耗的轨迹。

在系统结构上,Polar 由 rollout server 和 gateway node 构成。前者负株连务提交、会话治愈、景色捏久化和回调继承;后者持重会话推行全人命周期,包括运行时启动、推行框架准备、轨迹构建、限度评测和资源回收。

论文还把运行化、运行中、后管束拆到孤苦职责池,并建造 READY 缓冲区,让运行时预热和评测预热在后台并行,减少长尾任务对 GPU 锻真金不怕火的梗阻。

实验部分聚焦软件工程任务。基于团结个 Qwen3.5-4B 底座模子,在 Codex、Claude Code、Qwen Code、Pi 4 种代码推行框架上,Polar 配合 GRPO(组相对战略优化)锻真金不怕火后,在 SWE-Bench Verified 的 pass@1 分数差别从 3.8% 栽培到 26.4%(增涨 594.74%)、29.8% 栽培到 34.6%、34.6% 栽培到 35.2%、34.2% 栽培到 40.4%。

在成果方面,prefix_merging 比拟 per_request,把 3 个锻真金不怕火要领中的更新数从 1185 次降到 218 次,墙钟本事从 189.5 分钟缩小到 35.2 分钟,约快 5.39 倍;rollout GPU 平均期骗率也从 20.4% 升到 87.7%。

(著作为作家孤苦不雅点博亚体育BoYa中国世界杯授权竞彩网,不代表艾瑞网态度)