T
traeai
登录

产品

Lean-IMO-Bench

用于评估数学证明能力的基准数据集,LEAP 将其一次求解率从<10%提升至70%。

已跟踪 1 条高相关材料

TraeAI 观察

最近变化

2026-06-03 · LEAP 通用 LLM 一模型解决全部 12 道 Putnam 2025 题。

为什么值得关注

Lean-IMO-Bench 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。

agent harnessagentic frameworkarXiv:2606.03303general-purpose LLMLean compiler

相关材料

已收录 1 条与 Lean-IMO-Bench 相关的内容,按评分排序。

New research from Google.

Just shows the impressive results you can get from custom agent harnesses...

Google 的 LEAP 框架将通用 LLM 与形式化数学编译器 Lean 及验证器结合,使 Lean-IMO-Bench 一次求解率从低于10%提升至70%,并以一模型解决 Putnam 2025 全部 12 题,超越专门化金牌系统。

入选理由:LEAP 通用 LLM 一模型解决全部 12 道 Putnam 2025 题。

精选推文#LEAP#Lean 编译器#Putnam 2025#agentic 框架#通用 LLM英文

跨材料问答 · Lean-IMO-Bench

回答基于:Lean-IMO-Bench 相关 1 条材料
    0 / 500

    AI 可能会生成不准确的信息,请核实重要内容