Agent Arena has been live for 2 weeks, with 10 more models now on the new leaderboard. Two highlight...

lmarena.ai(@lmarena_ai)

lmarena.ai(@lmarena_ai)2026年6月17日

Agent Arena has been live for 2 weeks, with 10 more models now on the new leaderboard. Two highlight...

7.0Score

TL;DR · AI 摘要

Agent Arena 已上线两周，GLM-5.2 和 Claude Fable 5 表现突出，提供真实任务评估。

核心要点

GLM-5.2 (Max) 在 Agent Arena 中取得 +9.4% 的确认成功和 +14.9% 的赞誉对比。
Claude Fable 5 在美国政府暂停访问前排名第一，是当前前沿的参考基准。
Agent Arena 通过数百万真实用户任务评估模型，使用因果追踪方法衡量性能。

结构提纲

按章节快速跳转。

§Agent Arena 上线两周
Agent Arena 已上线两周，新增 10 个模型进入排行榜。
·GLM-5.2 表现突出
GLM-5.2 (Max) 由 Zai_Org 提出，取得 +9.4% 的确认成功和 +14.9% 的赞誉对比。
·Claude Fable 5 的表现
Claude Fable 5 在美国政府暂停访问前排名第一，是当前前沿的参考基准。
›Agent Arena 的评估方法
Agent Arena 使用因果追踪方法衡量模型在数百万真实任务中的表现。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Agent Arena 评估模型
- 上线两周
  - 新增 10 个模型
- GLM-5.2 表现
  - +9.4% 确认成功
  - +14.9% 赞誉对比
- Claude Fable 5 表现
  - 美国政府暂停访问前排名第一

金句 / Highlights

值得收藏与分享的关键句。

GLM-5.2 (Max) by @Zai_Org enters the top 10. The strongest open-weight result we've measured, at +9.4% confirmed success and +14.9% praise-vs-complaint.
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
Claude Fable 5 by @AnthropicAI debuted at #1 across nearly every metric before the U.S. government directive to suspend access.
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
In Agent Arena, we measure models on millions of real-world, long-horizon agentic tasks from a global community of users.
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X

#Agent Arena#模型评估#GLM-5.2#Claude Fable 5

打开原文

Arena.ai 在 X 上的推文： "Agent Arena 已上线两周，现在有 10 个新模型加入新的排行榜。两个值得关注的亮点： - 由 @Zai_Org 提供的 GLM-5.2 (Max) 进入前十。我们测量到的最强开源模型，确认成功率为 +9.4%，表扬与批评比为 +14.9% https://t.co/Qqh2E58nLB" / X

Arena.ai

@arena

Agent Arena 已上线两周，现在有 10 个新模型加入新的排行榜。两个值得关注的亮点： - 由

@

Zai_Org

提供的 GLM-5.2 (Max) 进入前十。我们测量到的最强开源模型，确认成功率为 +9.4%，表扬与批评比为 +14.9%

由

AnthropicAI

推出的 Claude Fable 5 在美国政府下令暂停访问之前几乎在所有指标上都排名第一。它目前前沿模型的一个有用上限。在 Agent Arena 中，我们通过全球用户社区提供的数百万个真实世界、长期目标的智能体任务来评估模型。模型可以使用网络搜索、文件系统和终端工具来完成复杂的任务流程。排行榜通过因果追踪方法，衡量模型在相对于平均模型的成果方面的表现。哪个模型将进入 Arena？了解更多方法论并查看实时排行榜（链接在推文下方）👇

6月4日

介绍 Agent Arena：大规模的真实世界智能体评估。如何评估正在执行实际任务的智能体？我们通过数百万个真实用户完成真实任务的实时会话进行评估。在 Arena 上，模型现在可以使用网络搜索、文件系统和终端工具来完成复杂的

显示更多

2026年6月17日下午8:21

19.2K

浏览量

1

4

14

2

7

27

3

8

238

43

阅读14条回复