DeepLearning.AI视频
AI Dev 26 x SF | Ara Khan:评估已失效,但仍必须用
7.8Score
可直接观看的视频资源打开原视频
TL;DR · AI 摘要
当前 AI 评估(evals)存在严重缺陷,过度依赖客观指标易误导判断,但合理构建、解读并嵌入 agent 流程仍具关键价值。
核心要点
- 当前主流 eval(如 Epoch AI、OpenAI 的 benchmark)存在‘虚假精确性’,模型分数相近时实际能力差异显著。
- Meta 的新模型在 benchmark 上得分高却广受失望,反映 eval 被‘刷分游戏’扭曲,模型优化方向偏离真实需求。
- 正确使用 eval 的三步:构建(build)、解读(interpret)、嵌入 agent flow(如 coding agent 或生产级 workflow
结构提纲
按章节快速跳转。
Evals 是 AI agent 开发中最具关键性的环节之一,无论 agent 类型或复杂度,都应掌握其构建与使用方法。
人们普遍误信 eval 的‘客观性’,但分数相近的模型实际表现可能差异巨大,说明当前 eval 存在系统性失真。
如 Sonnet 4.6 得分 52 与邻近模型看似接近,但实际使用半小时即可发现分数无法反映真实能力差异。
大量实验室和模型团队仅追求 eval 分数最大化,导致模型优化偏离真实用户需求,如 Meta 新模型即为典型案例。
应将 eval 从‘静态指标’转化为‘动态反馈’,通过构建、解读与嵌入 agent flow 实现闭环优化。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- AI Evals Are Broken — But Still Useful
- 问题根源
- 虚假精确性:分数相近 ≠ 能力相当
- eval 被异化为刷分游戏
- 正确使用路径
- 构建 eval(Build)
- 解读 eval(Interpret)
- 嵌入 agent flow(Use)
金句 / Highlights
值得收藏与分享的关键句。
如果你花半小时实际使用这些模型,很快就会发现这些分数未必有意义。
Meta 推出新模型……却因 benchmark 分数高而广受失望。
多数人对 eval 了解很多……但其实都理解错了。
#AI 评估#Agent 系统#基准测试#大模型#工程实践