Agent Arena has been live for 2 weeks, with 10 more models now on the new leaderboard. Two highlight...

TL;DR · AI 摘要
Agent Arena 已上线两周,GLM-5.2 和 Claude Fable 5 表现突出,提供真实任务评估。
核心要点
- GLM-5.2 (Max) 在 Agent Arena 中取得 +9.4% 的确认成功和 +14.9% 的赞誉对比。
- Claude Fable 5 在美国政府暂停访问前排名第一,是当前前沿的参考基准。
- Agent Arena 通过数百万真实用户任务评估模型,使用因果追踪方法衡量性能。
结构提纲
按章节快速跳转。
Agent Arena 已上线两周,新增 10 个模型进入排行榜。
GLM-5.2 (Max) 由 Zai_Org 提出,取得 +9.4% 的确认成功和 +14.9% 的赞誉对比。
Claude Fable 5 在美国政府暂停访问前排名第一,是当前前沿的参考基准。
Agent Arena 使用因果追踪方法衡量模型在数百万真实任务中的表现。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Agent Arena 评估模型
- 上线两周
- 新增 10 个模型
- GLM-5.2 表现
- +9.4% 确认成功
- +14.9% 赞誉对比
- Claude Fable 5 表现
- 美国政府暂停访问前排名第一
金句 / Highlights
值得收藏与分享的关键句。
GLM-5.2 (Max) by @Zai_Org enters the top 10. The strongest open-weight result we've measured, at +9.4% confirmed success and +14.9% praise-vs-complaint.
Claude Fable 5 by @AnthropicAI debuted at #1 across nearly every metric before the U.S. government directive to suspend access.
In Agent Arena, we measure models on millions of real-world, long-horizon agentic tasks from a global community of users.
Arena.ai 在 X 上的推文: "Agent Arena 已上线两周,现在有 10 个新模型加入新的排行榜。两个值得关注的亮点: - 由 @Zai_Org 提供的 GLM-5.2 (Max) 进入前十。我们测量到的最强开源模型,确认成功率为 +9.4%,表扬与批评比为 +14.9% https://t.co/Qqh2E58nLB" / X
Arena.ai
@arena
Agent Arena 已上线两周,现在有 10 个新模型加入新的排行榜。两个值得关注的亮点: - 由
@
Zai_Org
提供的 GLM-5.2 (Max) 进入前十。我们测量到的最强开源模型,确认成功率为 +9.4%,表扬与批评比为 +14.9%
由
推出的 Claude Fable 5 在美国政府下令暂停访问之前几乎在所有指标上都排名第一。它目前前沿模型的一个有用上限。在 Agent Arena 中,我们通过全球用户社区提供的数百万个真实世界、长期目标的智能体任务来评估模型。模型可以使用网络搜索、文件系统和终端工具来完成复杂的任务流程。排行榜通过因果追踪方法,衡量模型在相对于平均模型的成果方面的表现。哪个模型将进入 Arena?了解更多方法论并查看实时排行榜(链接在推文下方)👇
6月4日
介绍 Agent Arena:大规模的真实世界智能体评估。如何评估正在执行实际任务的智能体?我们通过数百万个真实用户完成真实任务的实时会话进行评估。在 Arena 上,模型现在可以使用网络搜索、文件系统和终端工具来完成复杂的
显示更多
2026年6月17日 下午8:21
19.2K
浏览量
1
4
14
2
7
27
3
8
238
43
阅读14条回复