ITBench-AA: 前沿模型在第一个企业级自动化 IT 任务基准测试中得分低于 50% —— 由人工分析和 IBM 推出
ITBench-AA 是一个针对企业级自动化 IT 任务的新基准测试,首次评估前沿模型在 Site Reliability Engineering 任务中的表现,结果显示所有前沿模型得分低于 50%,其中 Claude Opus 4.7 表现最佳,为 47%。
入选理由:Claude Opus 4.7 在 ITBench-AA 中表现最佳,得分为 47%
概念
评估模型在企业 IT 任务中表现的基准测试。
已跟踪 2 条高相关材料
最近变化
2026-05-28 · Qwen3.7-Max 在 ITbench-AA 测试中表现优异,排名第三。
为什么值得关注
ITbench-AA 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM
Hugging Face Blog · 8.5 分
ITBench-AA 是一个针对企业级自动化 IT 任务的新基准测试,首次评估前沿模型在 Site Reliability Engineering 任务中的表现,结果显示所有前沿模型得分低于 50%,其中 Claude Opus 4.7 表现最佳,为 47%。
📢Qwen3.7-Max just hit #3 on ITbench-AA — a fresh benchmark testing how well models handle real-worl...
Qwen(@Alibaba_Qwen) · 7.5 分
Qwen3.7-Max 在 ITbench-AA 基准测试中排名第三,该测试评估模型处理企业级 IT 任务的能力。
已收录 2 条与 ITbench-AA 相关的内容,按评分排序。
ITBench-AA 是一个针对企业级自动化 IT 任务的新基准测试,首次评估前沿模型在 Site Reliability Engineering 任务中的表现,结果显示所有前沿模型得分低于 50%,其中 Claude Opus 4.7 表现最佳,为 47%。
入选理由:Claude Opus 4.7 在 ITBench-AA 中表现最佳,得分为 47%
Qwen3.7-Max 在 ITbench-AA 基准测试中排名第三,该测试评估模型处理企业级 IT 任务的能力。
入选理由:Qwen3.7-Max 在 ITbench-AA 测试中表现优异,排名第三。