永恒的懒惰九月
TL;DR · AI 摘要
作者认为AI代理在软件开发中的应用将是一大失误,因其无法真正编程,只能模拟代码分布。
核心要点
- AI代理无法真正编程,仅能模仿代码分布,输出质量差且不易识别
- 作者尝试用AI代理完成项目但效果不佳,手动方式更高效可靠
- 大型组织因缺乏纠错能力将受AI代理负面影响更大
结构提纲
按章节快速跳转。
AI代理无法真正编程,仅是统计模型模拟代码分布。
作者尝试用AI代理编写代码,但发现效率低且质量差。
AI代理不是软件工程师,不能替代人工编程。
大型组织因反馈慢、缺乏纠错机制,将受AI代理负面影响更大。
AI将产生更多代码但质量下降,形成大量低质产物。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- AI代理的局限性
- 无法真正编程
- 统计模型模拟
- 组织影响
- 大型组织受冲击
- 小型团队更适应
金句 / Highlights
值得收藏与分享的关键句。
AI代理不能编程,它们是高度复杂的统计模型,旨在模仿编程分布。
作者尝试用AI代理完成项目,但每次怀疑自己能手工做得更好更快。
大型组织因缺乏纠错能力,将受AI代理负面影响更大。
标题:永恒的 Sloptember
URL 来源:https://geohot.github.io/blog/jekyll/update/2026/05/24/the-eternal-sloptember.html
发布日期:2026-05-24T00:00:00-07:00
Markdown 内容: 我现在就下结论,将 AI agents 引入软件开发将是该领域历史上最昂贵的错误之一。Agents 并不能编程,而且越来越难以意识到它们确实无法编程。它们是一个高度复杂的统计模型,旨在模仿编程的分布。输出虽然有缺陷,但这种缺陷越来越难以察觉。这正是一个日益精准的统计模型所应具有的表现。
- * *
起初,我拒绝接受这一点。我陷入了 Twitter 上关于地位焦虑的解释。我的一部分自我价值感来自于编程能力,所以难道不应该对这种损失感到防御性吗?为了维护自尊,我会一直否认这些模型能编程,直到我无法再否认为止?
我的意思是,很明显它们能够解决我如果终生致力于此也无望解决的数学问题。那么为什么它们不能编程呢?也许我只是不够优秀的程序员,无法识别它们的天才之处。
在过去六个月里我真的尝试了。我用 agents 编写了 tinygrad 的一些部分。我用 agents 反向工程了一个 USB <-> PCIe 芯片。但每次我都会怀疑自己手动做会做得更好更快。Agent 前期投入大量工作,然后给你一个老虎机拉杆来希望它能完成润色。但它从未真正做到。
而在之前,“是你使用方式不对。”我已经尝试了所有不同的模型、不同的框架、不同的提示语。这不是问题所在。那些说这话的人可能会对老虎机也这么说:“你看,你得到樱桃后必须押注五条线,难怪你没赢!”
我不是说 AI 没有用,显然它是有用的。对于大多数搜索来说,它确实比 Google 更好。而当你需要快速原型且不在乎润色时,它的速度是惊人的。但它真的是软件工程师吗?在我曾工作的任何公司中,都远未达到标准。关键在于知道何时使用它以及何时不用。
我更深入地思考了自我价值保护的问题。AFL 找到的 bug 比 LLMs 多,但没人因此感到沮丧。国际象棋和围棋比以往更受欢迎。我简直迫不及待想拥有成群的机器人“助理”来帮我清理代码!我不害怕失去地位,反而觉得这可能是某种心理操控手段来推销 agents。恐惧损失是让大公司行动的少数几种方式之一。不过我认为在这种恐惧中,他们犯了一个大错。
- * *
Agents 最终会对大型组织造成更大伤害,而不是高绩效个人或小型组织。在过去六个月里,我观察了我的朋友和同事如何采用这些工具。在所有高绩效人员身上你会发现一个特质:纠错能力,而他们大多擅长识别什么是“垃圾代码”。探索与利用之间的平衡,以及何时使用、何时信任、如何使用这些工具,需要一点时间去调整……但我没有看到任何人进入一种不需要仔细阅读并理解每一行代码的模式,除非是在某些受限领域。
相比之下,大型组织则不同。反馈循环慢得多,对齐程度也低得多。表现较差的员工不会具备这种自我检查机制。他们正是使用 agents 生产出 10 倍产出的人。你觉得那个组织的整体产出会发生什么?世界平均产出又会怎样?
Agent 将最终产生比以往更多的代码、应用和功能。这是一个黄金时代,充满了大量的垃圾代码;而质量之光的时代却进入了黑暗时期。
听说苹果正在向所有工程师推广 AI。当人们抽象地思考时,他们会认为 AI 会完成所有这些事情,但让我们聚焦于具体例子。你认为 macOS 在未来两年内会变得更好还是更糟?
- * *
当人们看到一个产物时,他们会假设其创作过程。即使没有刻意思考,他们也会假设创作者具有基本的人类思维状态。这个假设已经不再成立。事物可以以以前不可能的方式出错,而语法和语法等旧的质量代理已毫无用处。AI 生成的产物并非由人类相同的过程产生,尽管在统计上这种差异极其微妙,但在你试图以人类方式与产物互动和构建时,这种差异就会变得显而易见。
虽然我并不完全认同他们的所有观点,但现在我在 LeCun/Marcus 阵营中支持 LLMs。我认为像这样的模型永远无法编程,我认为过程很重要。我认为深度学习仍然是解决方案,但真正的编程 agents 需要世界模型,而不是那种通过注释失败测试并告诉你所有测试都通过的 RLVR 垃圾。
这一时代的真正故事将是,谁能在 AI 精神病中避免自我伤害。