Fireworks AI在X上:我们使用@nottecore在前沿模型上运行了720次浏览器代理任务
Fireworks AI测试显示,基线模型在浏览器代理任务中重试率达20%,而Kimi K2.5、GLM-5、MiniMax M2.5的重试率接近零,执行差异直接影响生产系统的成本、延迟和可靠性。
入选理由:基线模型在5次调用中约1次输出畸形,导致多步骤工作流重试
模型
通义千问系列大模型
已跟踪 2 条高相关材料
最近变化
2026-05-20 · 基线模型在5次调用中约1次输出畸形,导致多步骤工作流重试
为什么值得关注
GLM-5 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
We ran 720 browser agent tasks with @nottecore across frontier models. One baseline model produced...
Fireworks AI(@FireworksAI_HQ) · 8.5 分
Fireworks AI测试显示,基线模型在浏览器代理任务中重试率达20%,而Kimi K2.5、GLM-5、MiniMax M2.5的重试率接近零,执行差异直接影响生产系统的成本、延迟和可靠性。
智谱公布“降智”的秘密:Scaling不可避免的痛
量子位 · 8.5 分
智谱技术博客揭示了在大规模Coding Agent推理过程中遇到的"Scaling Pain",包括乱码、复读和生僻字等异常现象,通过深入排查发现这些问题源于高负载下的推理状态管理不当。文章分享了投机采样作为异常检测指标的策略,以及修复KV Cache竞态和HiCache加载时...
已收录 2 条与 GLM-5 相关的内容,按评分排序。
Fireworks AI测试显示,基线模型在浏览器代理任务中重试率达20%,而Kimi K2.5、GLM-5、MiniMax M2.5的重试率接近零,执行差异直接影响生产系统的成本、延迟和可靠性。
入选理由:基线模型在5次调用中约1次输出畸形,导致多步骤工作流重试
智谱技术博客揭示了在大规模Coding Agent推理过程中遇到的"Scaling Pain",包括乱码、复读和生僻字等异常现象,通过深入排查发现这些问题源于高负载下的推理状态管理不当。文章分享了投机采样作为异常检测指标的策略,以及修复KV Cache竞态和HiCache加载时序问题的具体方案,并提出了Prefill阶段的LayerSplit优化来缓解内存与带宽压力,最终显著提升了系统性能。
入选理由:智谱遭遇的异常现象(乱码、复读、生僻字)根源在于高负载推理状态管理问题。