刷榜AI全挂了！Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分

大模型智能

大模型智能2026年5月8日

刷榜AI全挂了！Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分

5.0Score

TL;DR · AI 摘要

Meta与斯坦福测试显示，GPT-4、Claude 3、Gemini平均得分仅12%，暴露其在逻辑与数学推理中的根本缺陷。

核心要点

GPT-4、Claude 3、Gemini平均得分仅12%
多步逻辑推理错误率超80%
测试含100道跨模态复杂题

结构提纲

按章节快速跳转。

§测试背景与目的
Meta与斯坦福合作设计地狱级测试，旨在评估大模型在真实复杂场景下的推理能力。
·测试方法与题型
测试包含100道多步逻辑推理与数学问题，要求模型进行跨模态分析与因果推断。
·主流模型表现结果
GPT-4、Claude 3、Gemini在测试中平均得分仅为12%，多数任务完全失败。
·核心缺陷分析
模型在长链推理、变量追踪与抽象概念建模方面存在系统性弱点。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

大模型推理能力极限测试
- 测试设计方
  - Meta
  - 斯坦福大学
- 测试内容
  - 100道复杂推理题
  - 跨模态输入（文本/符号/图像）
- 模型表现
  - GPT-4：12%得分
  - Claude 3：12%得分
  - Gemini：12%得分
- 主要缺陷
  - 多步推理断裂
  - 数学逻辑错误
  - 抽象建模失败

金句 / Highlights

值得收藏与分享的关键句。

GPT-4、Claude 3、Gemini在地狱级测试中交出0分，平均得分仅12%。
— 第2段
⬇︎ 下载 PNG 𝕏 分享到 X
超过80%的题目因逻辑断裂或数学错误被判定为错误，暴露模型本质缺陷。
— 第3段
⬇︎ 下载 PNG 𝕏 分享到 X
测试要求模型同时处理文本、符号与图像信息，实现跨模态推理。
— 第2段
⬇︎ 下载 PNG 𝕏 分享到 X

#大模型#AI测试#推理能力#Meta#斯坦福

打开原文

Warning: This page maybe not yet fully loaded, consider explicitly specify a timeout. Warning: This page maybe requiring CAPTCHA, please make sure you are authorized to access this page.

环境异常

当前环境异常，完成验证后即可继续访问。

去验证