Gary Marcus on X: "This is confused, but popular."

TL;DR · AI 摘要
Gary Marcus批评当前AI热潮中对LLM能力的过度乐观,指出Mythos并非纯大语言模型,且在关键基准测试中表现未显著优于其他模型。
核心要点
- Mythos可能不是纯LLM,类似Claude Code使用混合技术
- ECI基准测试显示Mythos仅在bug检测上优于其他模型
- Marcus强调LLMs需补充其他方法,不能单独解决幻觉与推理错误
结构提纲
按章节快速跳转。
该观点因迎合大众而流行,但存在逻辑不清的问题。
Mythos很可能不是纯大语言模型,而是融合了多种技术的系统。
在Epoch AI的ECI测试中,Mythos仅在漏洞发现方面略胜一筹。
Mythos未能有效缓解幻觉、低级推理错误等根本缺陷。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- LLM 技术现实与舆论泡沫
- 公众认知偏差
- 迎合听众情绪
- 技术本质澄清
- Mythos 非纯 LLM
- 类似 Claude Code 的混合架构
- 实证评估
- ECI 基准测试表现
- 仅在 bug 检测上有优势
- 未解决的问题
- 幻觉问题依然严重
- 基础推理错误未改善
金句 / Highlights
值得收藏与分享的关键句。
受欢迎是因为它告诉人们他们想听的话。
Mythos可能不是纯LLM(类似Claude Code使用混合技术)。
它在漏洞检测上更好,但这并不意味着解决了幻觉或愚蠢的推理错误。
Gary Marcus 在 X 上发文:“这很混乱,但很流行。
流行是因为它告诉了很多人他们想听的话。 混乱的原因有几点:首先,Mythos 可能并不是一个纯大语言模型(LLM)。(Claude Code 就不是,它可能使用了一些类似的技术)。[另外,像我这样的批评者从未称 LLM 为“骗局”;我们只是说 LLM 需要与其他技术结合,单独使用是不够的。] 而且在 @EpochAIResearch 的重要 ECI 基准测试中,它并不比其他模型好太多。它在找 bug 方面表现更好,但这并不意味着它解决了幻觉、荒谬的推理错误等问题。”
别错过正在发生的事

这很混乱,但很流行。流行是因为它告诉了很多人他们想听的话。混乱的原因有几点:首先,Mythos 可能并不是一个纯大语言模型(LLM)。(Claude Code 就不是,它可能使用了一些类似的技术)。[另外,像我这样的批评者从未称 LLM 为“骗局”;我们只是说 LLM 需要与其他技术结合,单独使用是不够的。] 而且在 @EpochAIResearch 的重要 ECI 基准测试中,它并不比其他模型好太多。它在找 bug 方面表现更好,但这并不意味着它解决了幻觉、荒谬的推理错误等问题。
引用

prinz
@deredleritt3r
·
5月7日
还记得以前大家普遍认为 LLM 是骗局的时候吗?实际上,泡沫即将破裂(6个月前) x.com/alexalbert__/s…
·
12
5
27 28
7
阅读 12 条回复