The Shape of the Thing

Q: 引言

介绍AI能力的指数级增长及其影响。

Q: 基准测试

展示AI在多项基准测试中的表现。

One Useful Thing

One Useful Thing2026年3月12日

The Shape of the Thing

8.5Score

TL;DR · AI 摘要

AI能力呈指数级增长，从图像到视频再到复杂任务，AI系统的表现显著提升，达到了前所未有的水平。

核心要点

AI能力呈指数级增长
AI系统从图像到视频再到复杂任务表现显著提升
最新AI系统在多项测试中达到或接近人类水平

结构提纲

按章节快速跳转。

§引言
介绍AI能力的指数级增长及其影响。
·背景
回顾2023年关于AI的预测及当前进展。
·新阶段
描述2025年后AI进入的新时代及其特点。
·指数增长
通过图像和视频模型展示AI能力的指数级提升。
·基准测试
展示AI在多项基准测试中的表现。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

AI能力的指数级增长

金句 / Highlights

值得收藏与分享的关键句。

AI系统从图像到视频再到复杂任务表现显著提升，达到了前所未有的水平。
— 引言
⬇︎ 下载 PNG 𝕏 分享到 X
最新AI系统在多项测试中达到或接近人类水平，例如Google-Proof Q&A测试中AI得分94%。
— 基准测试
⬇︎ 下载 PNG 𝕏 分享到 X

#AI#指数增长#复杂任务

打开原文

URL 来源: https://www.oneusefulthing.org/p/the-shape-of-the-thing

发布日期: 2026-03-12T14:10:07+00:00

Markdown 内容: 2023年10月，我写了一篇关于“事物阴影的形状”的文章（链接），探讨了人工智能在未来几年可能变成的样子。现在我们可以更清楚地看到这个“事物”，以及它带来的某些后果。正如我在最近的文章中讨论的那样，我们已经进入了一个人工智能的新阶段。自从ChatGPT推出后，人机协作工作采取了所谓的协同智能形式，在这种形式下，人类会通过来回提示AI来帮助完成任务。从2025年底开始，由于像Claude Code、OpenAI的Codex和OpenClaw这样的AI代理的出现，我们进入了一个新的时代。这些系统可以让你直接给它们分配工作，有时甚至是数小时的人类工作量，并且在几分钟内就能得到合理且有用的结果。这是一个管理AI的时代，而不是与之合作的时代。

这种新的人工智能方法是AI能力迅速呈指数级提升的结果。这意味着，如果不理解AI能力的不断增强，你就无法理解我们现在所处的位置以及未来可能的发展方向。

指数级的进步很难直观理解，因此与其使用图表或图形，不如从水獭开始。如果你一直关注我的AI写作，你应该知道我的“水獭测试”（链接），在这个测试中，我挑战各种AI图像模型展示一张“飞机上使用Wi-Fi的水獭”的图片。如下所示，从2022年（ChatGPT推出的那一年）到2025年的进展非常迅速且显著。

那么，自2025年4月以来发生了什么变化？随着近乎完美的图像出现，视频成为了新的前沿领域，并且也取得了指数级的进步。为了证明这一点，我给来自TikTok制作方Bytedance的最先进（目前在美国尚未发布的）AI视频模型提出了一个指令：“一部关于水獭如何看待Ethan Mollick的‘水獭测试’的纪录片，该测试通过AI生成水獭坐在飞机上的图像的能力来评判AI。”这是第一个结果——一定要打开声音：

除了一个发音错误外，这几乎完美无缺，甚至水獭的表情都被动画化得具有类似人类的表情。当然，视频模型很酷，但它们不一定能反映有用的自主AI能做什么。那么，如果我们看看AI能力的基准测试，是否也能看到同样的指数曲线？

在当今最著名的AI评估之一，METR长任务图中，确实如此。它试图通过衡量AI在一定程度的可靠性下能够自主完成多少人类工作来测量AI的进步。它也吸引了一些批评者，甚至METR也指出了潜在的问题。但是，如果你不喜欢METR图，你会发现大多数AI能力的图表都有类似的曲线。

作为示例，我选择了四个难度大且多样的AI测试，并绘制了下面的时间进度图。左上角显示的是Google-Proof问答基准测试的成绩，这是一个知识测试，研究生使用谷歌也只能在自己专业领域之外得分34%，而在专业领域内得分约为70%，但现在最好的AI得分达到了94%。或者看看GDPval，行业专家在这里评估AI与经验丰富的人员在复杂任务上的表现，最新的AI现在有82%的情况下达到或超过了顶级人类的表现。同样的模式也适用于“人类的最后一场考试”，这是一组由大学教授编写的非常困难的问题，需要相当的专业知识才能解答。我们甚至可以用AI解决谜题的能力（你可以尝试这里的谜题链接，它们很有趣！）。每个测试都显示出类似的能力快速提升，至少在达到测试的最高可能分数之前，几乎没有减速的迹象。

除了指数增长的图表之外，重要的是认识到所有这些测试都有其自身的缺陷，AI 仍然参差不齐，能够在某些任务上表现出色，而在其他任务上却表现不佳。尽管在测试中展示了惊人的能力，但公司们仍在早期阶段采用 AI，这意味着迄今为止，大多数组织几乎没有发生什么变化。但是，“大多数组织”并不意味着每个组织。我们已经开始看到一些新的组织方法的首次出现，这些方法利用了 AI 代理的新能力。

几周前，专注于访问控制的安全软件公司 StrongDM 的一个三人团队宣布他们建立了一个软件工厂（Software Factory）——一种完全依赖 AI 来编写、测试和部署生产软件的方法，无需人工参与。该过程包括两条相当激进的规定：“代码不得由人类编写”和“代码不得由人类审查”。为了支持这个工厂，每位工程师每天需要花费相当于他们工资的金额购买 AI 代币，至少每天 1000 美元。

工厂的基本理念是将未来的产品路线图，由人类编写，转化为实际产品。编码代理使用这些路线图来构建软件，而测试代理则在一个模拟的客户环境中试用这些软件（测试代理根据需要构建该环境）。这些代理相互提供反馈，来回循环直到结果满足 AI 的要求。然后，人类会审查最终产品，并且结果会被发送给客户，而没有人会接触或甚至看到底层代码。

软件工厂的测试代理构建的一个 Slack 模拟版本，其中一群模拟客户提交请求以测试编码代理正在制作的工具。

显然，这里有许多细节使得这种方法可行，StrongDM 团队也公开分享了许多这些细节（查看此处）。他们还邀请了一些聪明的外部观察者来观察工厂的运作并评论他们的所见，因此你可以阅读 Simon Willison 和 Dan Shapiro 的报道，以更好地了解他们方法的优点和缺点。然而，在许多方面，软件工厂的具体细节不如这样一个事实重要：我们现在不仅有可能进行如此激进的工作方式实验，而且可能也是必要的。AI 已经足够成熟，可以改变组织的运营方式，而实验才刚刚开始，即使模型还在不断改进。

实用的代理、指数级的进步以及对工作本质进行激进实验的能力共同形成了一个不断变化且难以预测的 AI 发展环境。随着 AI 能力跨越阈值，它解锁了全新的应用场景，有时一夜之间就会改变人们对 AI 能做什么的看法。同时，尝试使用 AI 的组织会找到如何让 AI 为其服务的方法，从而导致突然宣布新的战略或大规模转变公司最重视的员工类型。此外，随着 AI 的不断进步，更多的政策制定者会对 AI 治理产生兴趣，这将与 AI 公司产生冲突。

这不是推测，因为我们在短短一周内看到了这一切的发生。2月22日，一家鲜为人知的金融公司 Citrini Research 发布了一篇关于 AI 采用可能会在2028年摧毁一些老牌企业的虚构情景（查看此处）。这篇文章中有许多明显夸张的元素，但它在华尔街引起了共鸣，导致股市价格大幅波动。2月26日，金融服务公司 Block 宣布裁员40%，暗示这是由于 AI 引起的。很可能 AI 的作用被大大夸大了（查看此处），AI 只是作为大规模裁员的借口。最后，在2月27日，五角大楼和 AI 公司 Anthropic 之间爆发了一场非常公开的冲突，争论谁应该能够控制政府如何使用 Claude 的规则。

在很多方面，这些案例都不是它们最初看起来的样子。Citrini报告是一个虚构的情景，Block的裁员与AI无关，而战争中的AI冲突围绕着许多复杂的尚未完全明朗的问题。但我认为，那单周时间很好地展示了近未来的感觉。关于AI能力的突然揭示导致了市场的迅速反应。AI对工作的影响越来越真实（尽管对于短期内这些影响是好是坏仍有很多争议）。AI公司与世界各地的政策制定之间的联系也越来越紧密。随着赌注越来越高，事情可能会感觉更加不稳定。

当然，也有可能事情会平静下来。也许AI的进步遇到了瓶颈，组织逐渐吸收变化，随着人们了解AI能做什么不能做什么，滚动的混乱会变得更容易管理。历史上充满了那些本应一夜之间改变一切的技术，但最终却花了数十年才彻底重塑经济。

但我不会押注于此。

其中一个原因是，AI公司相当明确地告诉我们接下来会发生什么：递归自我改进（RSI）。这个概念是指AI系统越来越多地用于构建更好的AI系统，从而形成一个反馈循环，可能加速我之前展示的那些曲线。在一月份达沃斯论坛上，Anthropic的Dario Amodei解释说，如果你制造出擅长编码和AI研究的模型，你可以用它们来构建下一代模型，从而加快这一循环。他指出，Anthropic内部的工程师几乎不再自己写代码了。当OpenAI在二月份发布其最新的Codex模型时，该公司表示这是“第一个在创建自身过程中起到重要作用的模型”。Google DeepMind的Demis Hassabis在同一场达沃斯小组讨论中承认，闭合自我改进循环是所有主要实验室都在积极努力的目标，尽管他警告称仍存在一些缺失的能力和真正的风险。

我们不知道这会走多远。RSI已经是一个理论概念几十年了，实验室可能会遇到计算、数据或AI研究本身的难度瓶颈。我们也不知道基于LLM的AI是否会最终达到一个无法再提升的天花板，或者锯齿状的前沿永远不会平滑化。我认为我们对此一无所知，但我也认为我们已经过了递归自我改进只是科幻小说的时代。相反，它已经成为每个主要AI公司的路线图上的一个明确项目。如果循环真的闭合，我们所看到的指数级曲线将会变得更陡峭，终点则不确定。

所以这就是我们现在所处的位置：二月份那一周的不稳定性预示着当AI能力不断增强并与市场、工作和政府同时互动时的感觉。这种不确定性很可能只会进一步蔓延。但不确定性并不等于无助。当一项技术如此强大且如此不稳定时，个人和组织现在做出的选择至关重要。我们现在可以看清事物的轮廓，但仍可以影响事物本身及其对我们所有人意味着什么。显然，我们没有规则或榜样来指导AI在工作中、学校里或政府中的使用方式。这是一个问题，但也意味着每个组织现在找到一种好的AI使用方法都会为其他人树立先例。塑造事物的时间窗口可能不会很长，但现在就在这里。