Fireworks AI(@FireworksAI_HQ)
前沿模型是强大的顾问
8.7Score

TL;DR · AI 摘要
Fireworks AI 通过“harness + advisor”架构,在 Harvey 法务代理基准上以 Claude Opus 4.7 为稀疏顾问,将 GLM 5.1 工作者性能提升至 18/100 全对,成本仅为 Opus 的 39%。
核心要点
- 在 Harvey 法务代理基准上,GLM 5.1 + Claude Opus 4.7 稀疏顾问方案全对数达 18/100。
- 仅使用 Claude Opus 4.7 时全对数为 14/100,证明顾问模式显著提升表现。
- 该组合在相同任务上将成本降至 Opus 的 39%,效率提升明显。
结构提纲
按章节快速跳转。
介绍前沿大模型在专业代理任务中的顾问角色与潜力。
概述 Harvey 法务代理基准的评估标准与评分范围(0–100)。
说明 Fireworks AI 的组合架构与稀疏顾问模式设计。
GLM 5.1 + Claude Opus 4.7 达到 18/100 全对,显著优于 Opus 14/100。
组合方案在相同任务上仅使用 Opus 的 39% 成本。
提供对 harness 设计、顾问模式与训练结果的进一步说明与链接。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- 前沿模型的顾问架构
- 基准与数据
- 方法:harness + advisor
- 结果:性能对比
- 结果:成本效率
- 延伸:设计与训练
金句 / Highlights
值得收藏与分享的关键句。
GLM 5.1 + Claude Opus 4.7 稀疏顾问方案在 Harvey 法务代理基准上全对数达 18/100,较仅用 Opus 的 14/100 提升显著(+28.6%)。
组合方案在相同任务上将成本降至 Claude Opus 4.7 的 39%,效率提升明显,成本仅为 Opus 的 39%。
该成果展示 harness 设计与顾问模式在专业代理任务中的有效性,为资源受限场景提供高效替代方案。
#前沿模型#法务代理基准#harness 设计#顾问模式#Claude Opus 4.7
打开原文Fireworks AI 在 X 上:“前沿模型是强大的顾问。在 @harvey 的法律代理基准测试中,使用 Claude Opus 4.7 作为稀疏顾问的 GLM 5.1 工作节点实现了 18/100 全通过,而仅使用 Opus 时为 14/100,成本仅为 39%。更多关于框架设计、顾问模式和训练结果:https://t.co/04WZcF3q6k” / X
不要错过正在发生的事情

前沿模型是强大的顾问。在
的法律代理基准测试中,使用 Claude Opus 4.7 作为稀疏顾问的 GLM 5.1 工作节点实现了 18/100 全通过,而仅使用 Opus 时为 14/100,成本仅为 39%。更多关于框架设计、顾问模式和训练结果:
4
19
76
54