Gary Marcus on X: "This is confused, but popular."

Gary Marcus(@GaryMarcus)

Gary Marcus(@GaryMarcus)2026年5月9日

Gary Marcus on X: "This is confused, but popular."

5.5Score

TL;DR · AI 摘要

Gary Marcus批评当前AI热潮中对LLM能力的过度乐观，指出Mythos并非纯大语言模型，且在关键基准测试中表现未显著优于其他模型。

核心要点

Mythos可能不是纯LLM，类似Claude Code使用混合技术
ECI基准测试显示Mythos仅在bug检测上优于其他模型
Marcus强调LLMs需补充其他方法，不能单独解决幻觉与推理错误

结构提纲

按章节快速跳转。

§引言：流行但混乱的观点
该观点因迎合大众而流行，但存在逻辑不清的问题。
·Mythos的技术本质
Mythos很可能不是纯大语言模型，而是融合了多种技术的系统。
·ECI基准测试结果
在Epoch AI的ECI测试中，Mythos仅在漏洞发现方面略胜一筹。
›未解决的核心问题
Mythos未能有效缓解幻觉、低级推理错误等根本缺陷。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

LLM 技术现实与舆论泡沫
- 公众认知偏差
  - 迎合听众情绪
- 技术本质澄清
  - Mythos 非纯 LLM
  - 类似 Claude Code 的混合架构
- 实证评估
  - ECI 基准测试表现
  - 仅在 bug 检测上有优势
- 未解决的问题
  - 幻觉问题依然严重
  - 基础推理错误未改善

金句 / Highlights

值得收藏与分享的关键句。

受欢迎是因为它告诉人们他们想听的话。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
Mythos可能不是纯LLM（类似Claude Code使用混合技术）。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
它在漏洞检测上更好，但这并不意味着解决了幻觉或愚蠢的推理错误。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X

#LLM#AI#批判性思考

打开原文

Gary Marcus 在 X 上发文：“这很混乱，但很流行。

流行是因为它告诉了很多人他们想听的话。混乱的原因有几点：首先，Mythos 可能并不是一个纯大语言模型（LLM）。（Claude Code 就不是，它可能使用了一些类似的技术）。[另外，像我这样的批评者从未称 LLM 为“骗局”；我们只是说 LLM 需要与其他技术结合，单独使用是不够的。] 而且在 @EpochAIResearch 的重要 ECI 基准测试中，它并不比其他模型好太多。它在找 bug 方面表现更好，但这并不意味着它解决了幻觉、荒谬的推理错误等问题。”

别错过正在发生的事

Gary Marcus

@GaryMarcus

这很混乱，但很流行。流行是因为它告诉了很多人他们想听的话。混乱的原因有几点：首先，Mythos 可能并不是一个纯大语言模型（LLM）。（Claude Code 就不是，它可能使用了一些类似的技术）。[另外，像我这样的批评者从未称 LLM 为“骗局”；我们只是说 LLM 需要与其他技术结合，单独使用是不够的。] 而且在 @EpochAIResearch 的重要 ECI 基准测试中，它并不比其他模型好太多。它在找 bug 方面表现更好，但这并不意味着它解决了幻觉、荒谬的推理错误等问题。

引用

prinz

@deredleritt3r

·

5月7日

还记得以前大家普遍认为 LLM 是骗局的时候吗？实际上，泡沫即将破裂（6个月前） x.com/alexalbert__/s…

最后编辑 2026年5月9日凌晨1:27

·

6,222 次浏览

12

5

27 28

7

阅读 12 条回复