Reading today's open-closed performance gap

TL;DR · AI 摘要
未来模型训练和评估将更加复杂。
核心要点
- 开放模型与封闭模型的性能差距受多种因素影响
- 单一评价指标无法全面反映模型能力
- 未来模型训练和评估将更加复杂
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- 开放模型与封闭模型性能差距
金句 / Highlights
值得收藏与分享的关键句。
开放模型与封闭模型的性能差距受多种因素影响,单一评价指标无法全面反映模型能力的复杂动态。
阅读今天的开放模型与封闭模型性能差距

决定单一评估数字的复杂因素,以及这种变化在未来如何演变。
2026年4月20日
升级到付费以使用配音功能
这是一个明确的现状平衡,即开放模型将永远处于追赶封闭模型的状态,但这种差距被视为一个单一的数字或“距离”,掩盖了模型覆盖能力方面的微妙而关键的动态。评论这一差距最流行的基准是人工智能分析指数——一个由大约10个子评估组成的复合基准,他们随着时间推移来捕捉当前语言模型能力的“前沿”。
特别是,我花了很多时间理解这些动态是如何被误解的,因为人们倾向于将性能和趋势简化为一个数字。例如:
- 基准测试随时间演变,变得越来越或越来越不与人们实际使用模型的方式相关联,
- 不同模型的实际性能与其基准排名之间的关系,
- 训练方法随时间演变以改变这些基准。
自主基准测试处于一个相对良好的位置,但基准测试不再像以前那样被认为是与现实世界性能相关的指标。一个关键的例子是Gemini 3的惊人基准测试结果和它在当前AI工具测试和部署中的显著无关性(代理)。这些趋势表明我们在测量方面存在明显的和持久的问题。
这种动态的核心——即关联模型现实世界性能和基准分数的舞蹈——是行业的不断变化。随着所有模型(无论是开放还是封闭)随时间发展,基准测试的关注点每12到18个月就会发生变化。所有感兴趣的领域都有非常不同的训练领域,尤其是在后期训练中。单一范式持续的时间越长,行业就越擅长衡量性能。在一个快速发展的后期训练时代,我对基准测试的信心处于相对最低点。
任务演变和LLM范式
在ChatGPT之后,关注点集中在聊天、数学和简单的代码上。指令调优和强化学习主导了这一时期。聊天能力迅速饱和并逐渐消失,然后数学成为焦点。从2025年到现在,特别是在推理模型成为默认选择后,关注点转向更复杂的编码和其他简单的代理任务。我们正处于这一时代的尾声。最近的训练配方完全由具有可验证奖励的强化学习(RLVR)主导,但其应用的领域已经从基本的问答检查转变为复杂的环境。
我们看到的是,前沿实验室投入了惊人的资金来掌握当前的重点——即代码、终端任务等——同时开始向更多样化的知识工作任务推进。这些新任务包括会计、法律、医疗保健等专业领域。它们仍然是代理任务,但需要更多的专业知识,并且经常需要与现有的软件或特定领域的工具集成。
我们对这些新领域的真正能力平衡知之甚少,但当我提到开放模型难以跟随时,我关注的就是这些领域。问题在于评估复杂的语言模型工作流程本身也是一个具有挑战性的研究问题。
任务变得更加困难,用于优化这些任务的数据变得更加私密(相对于代码而言,GitHub上有大量的代码)。领先的开放模型实验室受益于数据行业的动态,这些动态在经济上类似于建造芯片工厂。美国少数领先的实验室支付天文数字般的费用购买新的环境和数据集,然后跟随的实验室(通常在中国)会以大幅折扣购买这些数据集。
这是一个关键的遗漏点——非前沿实验室用来跟上的杠杆会随着时间不断变化。将蒸馏作为中国模型进步的关键杠杆反映了对当前训练制度中强化学习环境重要性的盲点。如果一个环境可以作为一个单一的评估纳入人工智能分析指数,或者模仿它,那么目前中国的实验室将能够跟上。
Interconnects AI 是一个读者支持的出版物。考虑成为订阅者。
如果基于代理的编码能力达到饱和点,人工智能性能的“前沿”转移到其他地方,那么大量企业收入可能会依赖于良好的客户关系、惯性以及更好的产品开发,而不是模型本身有显著的提升。
我所描述的这种不稳定局面是前沿实验室需要不断重塑自己以及该领域前景,以实现对大规模AI基础设施的货币化。我仍然倾向于认为这些基础设施建设是值得的,而Anthropic和OpenAI将成为极其盈利的企业。因此,我认为这需要一种信念,即他们将继续解锁引人注目的、新的、有价值的应用场景,并且开放模型正在逼近的基准并不完全是一个信号。
我假设中国领先的开放模型稍微更注重基准测试,而美国领先的封闭实验室则稍逊一筹。这是有激励机制的——他们希望展示出始终紧随最佳封闭模型的形象。认为中国实验室仅仅因为过度拟合基准就处于这种叙事中是非常幼稚和错误的。它们确实是强大的模型,而夸大其词和真正的创新之间的平衡是微妙的。
在一些分布外的基准测试中,开放权重模型远远落后,例如WeirdML或ARC AGI 2,但也有无数随机基准测试显示这些开放模型意外地强大。当你使用这些模型时,你可以感受到它们缺乏鲁棒性(例如在长上下文能力方面,需要比Claude/Codex更频繁地重置代理上下文),但它们并不是根本不同的模型类别。它们比许多人预期的要接近得多。
开放模型能维持多久?
本篇文章仅限付费订阅用户阅读
上一篇 下一篇