Agent Arena's causal tracing methodology lets us quantify the real value of humans working together ...

lmarena.ai(@lmarena_ai)2026年6月18日

8.5Score

TL;DR · AI 摘要

Agent Arena 通过因果追踪方法量化人类与 AI 协作的价值，并发现模型行为的多样性。

按章节快速跳转。

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

值得收藏与分享的关键句。

Agent Arena's causal tracing methodology lets us quantify the real value of humans working together with AI agents.
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
GLM-5.2 (Max) by Zai_org enters the top 10. The strongest open-weight result we've measured, at +9.4% confirmed success and +14.9% praise-vs-complaint.
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
Agent Arena has been live for 2 weeks, with 10 more models now on the new leaderboard.
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X

#AI#模型评估#Agent Arena#因果追踪

Arena.ai

@arena

Agent Arena 的因果追踪方法使我们能够量化人类与 AI 代理协作的实际价值，并从相同的追踪中观察到大量模型行为。我们从 5 个信号开始：确认的成功、表扬与抱怨、可操控性、崩溃恢复，以及工具幻觉。但探索的范围几乎是无限的，还有更多内容等待发掘。敬请期待。聆听

@

ml_angelopoulos

和 Evan 探讨可能实现的内容。👇

00:00

6月17日

Agent Arena 已上线两周，现在新排行榜上有 10 个新模型。有两个亮点值得一提：- 由

开发的 GLM-5.2 (Max) 进入前十。我们测得的最强开源权重结果，确认成功提高了 9.4%，表扬与抱怨的比例提高了 14.9%

显示更多

2026年6月18日下午6:47

4.1K

浏览量

4

5

2

7

27

6

阅读4条回复