谷歌的AI代理真的只花916美元就构建出操作系统了吗?
TL;DR · AI 摘要
谷歌声称其AI代理以916美元构建操作系统,但文章指出该演示缺乏透明度和验证细节,实际意义有限。
核心要点
- 谷歌称单次提示构建OS,实则提示长达数千行。
- 未披露代码是否原创,也无日志或源码供验证。
- 花费916美元与26亿tokens,成本数据首次公开。
结构提纲
按章节快速跳转。
谷歌在开发者大会上展示了名为Antigravity 2.0的AI代理系统,并声称其成功构建了一个操作系统。
尽管宣传为单一提示完成任务,实际上提示内容长达数千行,且依赖复杂脚手架支持多个子代理协作。
官方未明确定义何为人工介入,也没有说明运行过程中是否存在重启、审批或其他人为操作。
没有进行相似性检测来确认AI是否复制了现有开源项目中的操作系统实现。
谷歌未公布长提示词、生成代码及运行日志,导致外界无法独立评估实验结果的真实性。
作者提出应将此类长期现实任务视为新型评测方式,并强调需更严谨的方法论支撑。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Google's AI OS Claim
- Misleading Prompt Info
- Thousands of Lines
- Scaffold Dependency
- Human Intervention Ambiguity
- Undefined Standards
- Restart Mechanisms
- Lack of Originality Check
- No Similarity Analysis
- Training Data Influence
- Missing Verification Materials
- Prompt Not Released
- Code Logs Withheld
金句 / Highlights
值得收藏与分享的关键句。
“单一提示”的说法具有误导性,因为提示最终达到数千行长。
没有进行相似性分析或日志分析来检查代理是否复制了现有代码。
谷歌并未发布详细的提示词、代理编写的代码或运行日志。
作者:Stephan Rabanser, Sayash Kapoor, Rishi Bommasani, Andrew Schwartz, Arvind Narayanan
本周早些时候,在谷歌的开发者大会上,该公司推出了其最新模型 Gemini 3.5 Flash,以及一款新的智能体应用 Antigravity 2.0。为了展示这套新智能体的能力,谷歌声称一组智能体构建了一整套操作系统。据报道,这项工作仅需一个提示,花费约 900 美元的 API 费用,并由几十个子智能体协作完成。
这是否意味着现在可以用 AI 廉价地开发复杂的软件?别急着下结论:
- “单次提示”的说法具有误导性。 博客文章称该操作系统是由一次提示构建而成。但在文章中途,谷歌透露这个提示最终长达数千行。生成这个提示用了多少次尝试?对智能体的指令有多具体?缺少这些关键细节,我们很难判断真正起作用的是更好的模型,还是仅仅因为投入了更多精力来设计提示词。此外,这次运行是在一个框架1上进行的,该框架包含专门的角色分配、向子智能体委派任务的功能,还有一个用于检测并防止作弊的智能体。在发布文章中,谷歌将这一框架视为产品功能。但我们不知道该框架是否只是针对从零开始构建操作系统的特定任务进行了过度拟合,或者它能否同样出色地处理其他复杂软件工程任务。
- 谷歌的文章没有明确说明哪些行为算作人工干预。 文章提到,最终的操作系统开发过程“不需要人类提供额外指导或纠正”。但并未定义这一标准。文章描述了杀死和重启卡住的智能体所需的基础设施。文章提到了一次早期运行中智能体似乎出现了作弊行为,之后团队增加了反作弊措施并重新执行任务。但它未将试运行作为方法论的一部分进行报告。也没有清楚说明是否有任何智能体升级到需要人工介入的情况,最终运行是否需要手动重启、批准或修复,以及直到成功之前总共重试了多少次。
- 文章未尝试分析智能体所写的代码是完全原创还是复制了互联网上的现有代码。 公平地说,博客文章指出玩具级操作系统是常见的本科课程项目,公开实现很容易找到。文章本身也提出了担忧——智能体可能只是复述已有信息而非从头构建操作系统。但文章并没有解决这个问题——既没有相似性分析,也没有日志分析以检查智能体是否复制了现有代码。即使不存在直接复制,由于训练数据中记忆的模式,编写操作系统对于智能体来说也可能相对容易,因此这并不能很好地反映智能体创造_新颖_软件的能力。
- 谷歌尚未公布冗长的提示语、智能体编写的代码或运行日志,使得外界无法独立验证这些主张。 如果发布了源代码或智能体日志,独立研究人员就能评估产出物的质量,并回答诸如智能体是否复制了现有代码等问题。博客文章只附带了一个短视频,记录了开发进度的一个快照及实验的整体叙述。
另一方面,博客文章确实报告了构建操作系统的确切费用($916.92),以及总 token 预算(共 26 亿 tokens)。这些数字提供了有用的背景信息,这一点我们要肯定谷歌的做法。我们此前调查过的许多评测完全没有披露成本,这让它们的头条声明难以与其他评测相比较。
尽管如此,谷歌的博客文章本质上是一篇新闻稿。我们也认识到期望它具备科学严谨性并不现实。像这样的评测——即通过单一运行来评估长时间跨度的真实世界任务,并由实验者讲述智能体做了什么——已经变得很普遍。由于其中很多评测都出自 AI 公司之手,人们很容易把整个类型视为宣传炒作。
但这是一种错误的态度。我们将这种新兴范式称为“开放世界评测”,并在最近的一篇论文(及相关博客文章)中识别出了这一趋势。至关重要的是,我们认为开放世界评测需要一套新的方法论规范。如果做得好,它可以提供基准测试无法提供的宝贵视角。
谷歌的实验进一步证明,智能体或智能体团队可以自主或接近自主地长期从事某些类型的任务,在不陷入停滞或混乱的情况下取得进展。正如我们在论文中所述,出于包括成本在内的多种原因,这类任务实际上不可能通过基准测试来进行评估。因此,这是一个令人兴奋的时代,学术界、非营利组织和政府机构中的独立评估人员有机会介入,为开放世界评测带来 AI 厂商自身声明中不太可能出现的严谨性和可信度。
脚手架(Scaffold)是围绕 AI 模型构建的一层代码、提示和工具,它使模型具备自主行动的能力,能够处理内存管理、工具访问以及与环境交互等功能。例如,Claude Code 就是让 Anthropic 的 Claude 模型能够作为编码代理运行的脚手架。