DeepLearning.AI视频2026年5月22日

AI Dev 26 x SF | Ara Khan：评估已失效，但仍必须用

7.8Score

可直接观看的视频资源打开原视频

TL;DR · AI 摘要

当前 AI 评估（evals）存在严重缺陷，过度依赖客观指标易误导判断，但合理构建、解读并嵌入 agent 流程仍具关键价值。

核心要点

当前主流 eval（如 Epoch AI、OpenAI 的 benchmark）存在‘虚假精确性’，模型分数相近时实际能力差异显著。
Meta 的新模型在 benchmark 上得分高却广受失望，反映 eval 被‘刷分游戏’扭曲，模型优化方向偏离真实需求。
正确使用 eval 的三步：构建（build）、解读（interpret）、嵌入 agent flow（如 coding agent 或生产级 workflow

结构提纲

按章节快速跳转。

§引言：为何 eval 如此重要
Evals 是 AI agent 开发中最具关键性的环节之一，无论 agent 类型或复杂度，都应掌握其构建与使用方法。
§主流 eval 的两大误区
人们普遍误信 eval 的‘客观性’，但分数相近的模型实际表现可能差异巨大，说明当前 eval 存在系统性失真。
·误区一：盲目信任 benchmark 分数
如 Sonnet 4.6 得分 52 与邻近模型看似接近，但实际使用半小时即可发现分数无法反映真实能力差异。
·误区二：eval 被异化为‘刷分游戏’
大量实验室和模型团队仅追求 eval 分数最大化，导致模型优化偏离真实用户需求，如 Meta 新模型即为典型案例。
§如何正确使用 eval：三步实践法
应将 eval 从‘静态指标’转化为‘动态反馈’，通过构建、解读与嵌入 agent flow 实现闭环优化。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

AI Evals Are Broken — But Still Useful
- 问题根源
  - 虚假精确性：分数相近 ≠ 能力相当
  - eval 被异化为刷分游戏
- 正确使用路径
  - 构建 eval（Build）
  - 解读 eval（Interpret）
  - 嵌入 agent flow（Use）

金句 / Highlights

值得收藏与分享的关键句。

如果你花半小时实际使用这些模型，很快就会发现这些分数未必有意义。
— 3:17
⬇︎ 下载 PNG 𝕏 分享到 X
Meta 推出新模型……却因 benchmark 分数高而广受失望。
— 3:29
⬇︎ 下载 PNG 𝕏 分享到 X
多数人对 eval 了解很多……但其实都理解错了。
— 0:55
⬇︎ 下载 PNG 𝕏 分享到 X

#AI 评估#Agent 系统#基准测试#大模型#工程实践

AI Dev 26 x SF | Ara Khan：评估已失效，但仍必须用 | DeepLearning.AI | traeai