T
traeai
登录
返回首页
Gary Marcus(@GaryMarcus)

Gary Marcus on X: "This is confused, but popular."

5.5Score
Gary Marcus on X: "This is confused, but popular."

TL;DR · AI 摘要

Gary Marcus批评当前AI热潮中对LLM能力的过度乐观,指出Mythos并非纯大语言模型,且在关键基准测试中表现未显著优于其他模型。

核心要点

  • Mythos可能不是纯LLM,类似Claude Code使用混合技术
  • ECI基准测试显示Mythos仅在bug检测上优于其他模型
  • Marcus强调LLMs需补充其他方法,不能单独解决幻觉与推理错误

结构提纲

按章节快速跳转。

  1. 该观点因迎合大众而流行,但存在逻辑不清的问题。

  2. ·Mythos的技术本质

    Mythos很可能不是纯大语言模型,而是融合了多种技术的系统。

  3. 在Epoch AI的ECI测试中,Mythos仅在漏洞发现方面略胜一筹。

  4. Mythos未能有效缓解幻觉、低级推理错误等根本缺陷。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • LLM 技术现实与舆论泡沫
    • 公众认知偏差
      • 迎合听众情绪
    • 技术本质澄清
      • Mythos 非纯 LLM
      • 类似 Claude Code 的混合架构
    • 实证评估
      • ECI 基准测试表现
      • 仅在 bug 检测上有优势
    • 未解决的问题
      • 幻觉问题依然严重
      • 基础推理错误未改善

金句 / Highlights

值得收藏与分享的关键句。

#LLM#AI#批判性思考
打开原文

Gary Marcus 在 X 上发文:“这很混乱,但很流行。

流行是因为它告诉了很多人他们想听的话。 混乱的原因有几点:首先,Mythos 可能并不是一个纯大语言模型(LLM)。(Claude Code 就不是,它可能使用了一些类似的技术)。[另外,像我这样的批评者从未称 LLM 为“骗局”;我们只是说 LLM 需要与其他技术结合,单独使用是不够的。] 而且在 @EpochAIResearch 的重要 ECI 基准测试中,它并不比其他模型好太多。它在找 bug 方面表现更好,但这并不意味着它解决了幻觉、荒谬的推理错误等问题。”

别错过正在发生的事

Image 1

Gary Marcus

@GaryMarcus

这很混乱,但很流行。流行是因为它告诉了很多人他们想听的话。混乱的原因有几点:首先,Mythos 可能并不是一个纯大语言模型(LLM)。(Claude Code 就不是,它可能使用了一些类似的技术)。[另外,像我这样的批评者从未称 LLM 为“骗局”;我们只是说 LLM 需要与其他技术结合,单独使用是不够的。] 而且在 @EpochAIResearch 的重要 ECI 基准测试中,它并不比其他模型好太多。它在找 bug 方面表现更好,但这并不意味着它解决了幻觉、荒谬的推理错误等问题。

引用

Image 2

prinz

@deredleritt3r

·

5月7日

还记得以前大家普遍认为 LLM 是骗局的时候吗?实际上,泡沫即将破裂(6个月前) x.com/alexalbert__/s…

最后编辑 2026年5月9日 凌晨1:27

·

6,222 次浏览

12

5

27 28

7

阅读 12 条回复

AI 可能会生成不准确的信息,请核实重要内容