ITBench-AA: 前沿模型在第一个企业级自动化 IT 任务基准测试中得分低于 50% —— 由人工分析和 IBM 推出
ITBench-AA 是一个针对企业级自动化 IT 任务的新基准测试,首次评估前沿模型在 Site Reliability Engineering 任务中的表现,结果显示所有前沿模型得分低于 50%,其中 Claude Opus 4.7 表现最佳,为 47%。
入选理由:Claude Opus 4.7 在 ITBench-AA 中表现最佳,得分为 47%
模型
别名:通义千问3.7-Max
阿里巴巴通义千问系列中的高性能模型。
已跟踪 12 条高相关材料
最近变化
2026-05-28 · Qwen3.7-Max 在 ITbench-AA 测试中表现优异,排名第三。
为什么值得关注
Qwen3.7-Max 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM
Hugging Face Blog · 8.5 分
ITBench-AA 是一个针对企业级自动化 IT 任务的新基准测试,首次评估前沿模型在 Site Reliability Engineering 任务中的表现,结果显示所有前沿模型得分低于 50%,其中 Claude Opus 4.7 表现最佳,为 47%。
Qwen3.7-Max 成为全球第二AI编程模型
AI HOT 精选 · 8.5 分
Qwen3.7-Max 成为全球第二 AI 编程模型,得分 1541,在 Code Arena 上仅落后于 Claude。该模型适用于生产环境,能够处理 35 小时的任务、1000 多次工具调用,并在几小时内完成两周的项目。
Read more about the model:
OpenRouter(@OpenRouterAI) · 8.5 分
阿里巴巴推出Qwen3.7-Max,作为面向代理时代的最新旗舰模型,它是一个多功能的基础模型,适用于能够实际完成任务的代理。该模型在编码代理方面表现出色,能够进行前端原型设计、多文件重构和实际调试。此外,它还是一个可靠的办公和生产力助手。
已收录 12 条与 Qwen3.7-Max 相关的内容,按评分排序。
ITBench-AA 是一个针对企业级自动化 IT 任务的新基准测试,首次评估前沿模型在 Site Reliability Engineering 任务中的表现,结果显示所有前沿模型得分低于 50%,其中 Claude Opus 4.7 表现最佳,为 47%。
入选理由:Claude Opus 4.7 在 ITBench-AA 中表现最佳,得分为 47%
Qwen3.7-Max 成为全球第二 AI 编程模型,得分 1541,在 Code Arena 上仅落后于 Claude。该模型适用于生产环境,能够处理 35 小时的任务、1000 多次工具调用,并在几小时内完成两周的项目。
入选理由:Qwen3.7-Max 在 Code Arena 上得分为 1541,仅次于 Claude。
阿里巴巴推出全新升级的超大规模语言模型 Qwen3.7-Max,该模型专为代理中心工作设计,如编码、办公和生产任务以及长期自主执行。相较于前代 Qwen3.6,Qwen3.7-Max 在编码和代理基准测试中取得了显著进步,并引入了显式提示缓存功能,以优化重复上下文的处理。
入选理由:Qwen3.7-Max 是阿里巴巴最新发布的超大规模语言模型,专注于代理中心任务,如编码和办公自动化。
阿里巴巴推出Qwen3.7-Max,作为面向代理时代的最新旗舰模型,它是一个多功能的基础模型,适用于能够实际完成任务的代理。该模型在编码代理方面表现出色,能够进行前端原型设计、多文件重构和实际调试。此外,它还是一个可靠的办公和生产力助手。
入选理由:Qwen3.7-Max是阿里巴巴最新推出的旗舰AI模型,专为代理时代设计,适用于各种任务代理。
Qwen3.7-Max在编码代理和通用代理的基准测试中表现出色,尤其在最难的推理基准上表现出色,并在通用能力和多语言支持方面脱颖而出。
入选理由:Qwen3.7-Max在编码代理的基准测试中表现出色。
Qwen3.7-Max 在人工智能分析指数上获得了56.6分,比Qwen3.6-Max-Preview提高了4.8分。它在科学推理、代理能力、编码能力和减少幻觉方面都有显著提升。
入选理由:Qwen3.7-Max在人工智能分析指数上得分56.6,比前一版本提高了4.8分。
阿里云Qwen3.7-Max以56.6分位列Artificial Analysis全球大模型榜单第五、国产第一,即将上线阿里云百炼API服务。
入选理由:Qwen3.7-Max得分56.6分,超越国产所有模型,逼近GPT-5.4、Gemini3.1 Pro等国际顶尖模型
Qwen3.7-Max 在 ITbench-AA 基准测试中排名第三,该测试评估模型处理企业级 IT 任务的能力。
入选理由:Qwen3.7-Max 在 ITbench-AA 测试中表现优异,排名第三。
Qwen3.7-Max未开源权重,但因其在企业代理场景下的高性价比和优异性能表现,成为值得关注的模型。
入选理由:Qwen3.7-Max在Terminal-Bench 2.0得分为69.7,SWE-Pro为60.6,SWE-Verified为80.4。
Qwen3.7 Max 在 Code Arena: Frontend 中排名第 4,超越 GLM-5.1 并与 Claude Opus 4.6 在代理 Web 开发任务中持平。
入选理由:Qwen3.7 Max 排名第 4
文章仅为推广阿里通义千问Qwen3.7-Max的限时优惠活动,缺乏技术深度与实用信息。
入选理由:Qwen3.7-Max 提供限时五折优惠,可通过指定链接访问。
阿里巴巴通义千问团队发布了Qwen3.7-Max模型,该模型针对代理中心化工作场景进行优化,在编码和代理基准测试中相比Qwen3.6有显著提升。
入选理由:Qwen3.7-Max是通义千问Qwen3.7系列的旗舰模型