T
traeai
登录
返回首页
Gradient Flow

Google I/O 2026:代理层轮廓初现

8.2Score
Google I/O 2026:代理层轮廓初现

TL;DR · AI 摘要

Google I/O 2026宣布将AI代理层作为核心战略,通过Gemini Spark等产品使AI从问答工具转变为工作流执行者。

核心要点

  • Gemini Spark是7*24小时运行的持久性AI代理,将集成Chrome、Workspace和Android平台
  • Search正转变为具备生成式UI的运行环境,可实时生成交互式组件而非仅呈现结果
  • Google将模型成本和路由作为核心工程问题,而非仅关注性能基准

结构提纲

按章节快速跳转。

  1. §Google代理层战略

    Google在I/O 2026上确立AI代理层为首要战略目标,覆盖搜索、Chrome、Android和Workspace。

  2. 持久性个人AI代理,在专用云VM上24/7运行,默认需人工批准操作。

  3. Search利用Gemini 3.5 Flash和Antigravity编码框架,实时生成交互式UI组件。

  4. Android Halo为代理提供专门管理界面,用户可监控、暂停或批准代理操作。

  5. Google将模型成本和路由作为核心工程问题,开发者面临重新思考定位的压力。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Google I/O 2026代理层
    • 核心产品
      • Gemini Spark
      • Android Halo
      • Daily Brief
    • 平台转型
      • Search生成式UI
      • Chrome代理浏览器
      • Workspace企业集成
    • 战略影响
      • 模型成本优先
      • 产品定位挑战

金句 / Highlights

值得收藏与分享的关键句。

  • Google希望AI从回答问题转变为在其整个生态系统中运行表面、工作流和代理。

    第 2 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 产品模式比演示任务更重要:持久代理、工具访问、后台执行和人工批准作为默认操作模式。

    第 5 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 这里Search开始看起来像一个运行时环境,而不仅仅是一个答案引擎。

    第 11 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 如果AI成为用户搜索、计划、购买、创造和工作的场所,问题不再仅仅是你的产品是否使用AI。

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#Google#AI代理#I/O大会#人工智能#搜索
打开原文

**Google I/O 2026 的公告**今天发布了。我已经通读了所有内容,并提取了我认为对于构建产品、管理技术团队或押注 AI 发展方向的人来说真正重要的信息。

简而言之:Google 利用这次 I/O 宣布在代理层(agentic layer)占据一席之地,其雄心比任何单一产品都要广泛。持久性后台代理、新的商业协议、贯穿 Search、Chrome、Android 和 Workspace 的编排框架,以及以成本竞争力为定价重点的模型阵容。方向很明确:Google 希望 AI 从回答问题转变为在其整个生态系统中运行界面、工作流和代理。

这些公告自然分为几个类别:

  • 代理作为一等产品界面,Google 正在构建控制面板、支付轨道和编排基础设施来实现它们。
  • Search 从检索工具演变为更接近运行时的东西,生成界面、监控网络并启动工作流。
  • 模型阵容中,成本和路由成为核心工程问题,而不仅仅是基准性能。
  • 开发工具和编码代理在理论上很有前景,但仍受到从业者的怀疑。
  • 在科学、硬件和扩展现实领域的长期赌注值得跟踪,即使它们尚未投入运营。

对于构建者来说,机会是真实的。压力也是如此。如果 AI 成为用户搜索、计划、购买、创造和工作的场所,问题就不再仅仅是你的产品是否使用 AI。而是你的产品是否仍然拥有足够的工作流程份额来保持相关性。

#### 代理成为组织层

Gemini Spark。 Google 最具实际意义的公告。Spark 是一个个人 AI 代理,在专用的 Google Cloud 虚拟机上 24/7 运行,在笔记本电脑关闭时在后台工作,开箱即用地集成 Google 自有工具,并通过 MCP(模型上下文协议)添加第三方连接。产品模式比演示任务更重要:持久性代理、工具访问、后台执行,以及将人工批准作为默认操作模式。本周向受信任的测试者推出,下周向美国 Google AI Ultra 订阅者(100 美元/月)推出。

  • 分析: 对 Gemini 可靠性和工具使用的广泛反应是相关的。评论者仍然认为 Gemini 模型在指令遵循和工具交互方面表现不均。这很重要,因为持久性代理对不当行为的容忍度比聊天机器人更低。如果 Spark 要在商业环境中发挥作用,控制层将与模型本身一样重要。

Chrome、Workspace 和企业版中的 Spark。 今年晚些时候,Spark 将作为"代理浏览器"扩展到 Chrome 中,同时还将推出 Gemini Workspace 和 Gemini Enterprise 版本。消费者版推出是热身。在企业环境中,相同的模式需要在身份、审计日志、批准、数据访问和合规性方面有更强的控制——而这正是企业机会所在。

Android Halo。 今年晚些时候推出的 Android 代理管理专用基地。这比听起来更重要:代理需要一个用户可以看到正在运行的内容、暂停或批准操作、检查状态和从错误中恢复的地方。对于产品团队来说,代理不仅仅是模型加工具——它还需要一个控制面板。

每日简报。 一个开箱即用的 Gemini 代理,从收件箱、日历和任务中提取信息,创建个性化的晨间摘要,按主题组织并提供建议的后续步骤。这是代理用户体验的一个明智**切入点**:从低风险工作开始,总结和优先排序,在自动化操作本身之前提供一键操作。今天向美国的 Google AI Plus、Pro 和 Ultra 订阅者推出。

#### 搜索转变为 AI 工作界面

搜索中的生成式 UI。 搜索现在可以使用 Gemini 3.5 Flash 和 Antigravity 编程框架为单个查询即时构建自定义交互式 UI 组件。一个演示展示了一个完全交互的引力波模拟器,它是根据学生的天体物理学问题实时生成的。这是搜索开始看起来像运行时环境,而不仅仅是答案引擎的地方。我认为这对于构建分析、教育、规划或商业工具的任何人都有明显的影响。今年夏天向所有人免费推出。

  • 分析: 早期反应表达了对控制、归因和可靠性的担忧。用户认为 AI 生成的答案和界面是 Google 将用户留在自己界面内的又一步。对于产品团队来说,风险不仅仅是流量减少。而是产品体验的某些部分可能在用户到达你之前,就在上游(搜索内部)被重新创建。

搜索中的有状态小程序。 搜索现在可以构建持久的工具、跟踪器、仪表板和规划器,用户可以随时间返回使用。周末规划器演示从 Gmail、照片、日历、地图、天气和个人偏好中提取信息。Google 正在将搜索视为应用生成界面,而不仅仅是信息界面。这为当前存在于静态网页背后的产品既创造了机会也带来了压力。未来几个月从订阅者开始。

搜索代理。 持久性后台代理,24/7 监控网络,关注你关心的任何事情(股票标准、公寓列表、运动鞋发售),并在相关内容发生变化时推送综合更新。多个代理可以同时运行。这是搜索从检索转向监控、过滤和工作流启动的体现。今年夏天推出。

AI 模式升级至 Gemini 3.5。 AI 模式月活跃用户已突破 10 亿,现已在 Gemini 3.5 上运行。用户正逐渐学会向搜索引擎提出冗长、具体且复杂的问题,这意味着企业需要减少对孤立关键词的关注,而更多地思考他们的数据、产品和服务如何在对话式 AI 流程中呈现。

  • 分析: 此处的反应明显持怀疑态度。评论者抱怨 AI 摘要可能使单一薄弱来源听起来像是广泛共识,或在源材料并不真正支持答案的情况下自信地回答。最强烈的担忧不仅仅是幻觉问题。而是虚假权威:AI 回答听起来像是系统性综述,而实际上只是在总结分散或低质量的片段。

无缝的 AI 概览和 AI 模式。 AI 概览和 AI 模式正在合并为主要结果页面上的单一连续体验,上下文可以在后续问题中延续。搜索正变得越来越不像一个链接页面,而更像一个持续的会话。这改变了发现、归因和客户获取的工作方式。

  • 分析: 这正是"Google 零点击"焦虑显现的地方。网站所有者和高级用户担心 Google 会抓取并总结开放网络,同时减少返回原始网站的流量。传统搜索已经因 SEO 垃圾信息而降级,因此 Google 可能将其视为防御性自我颠覆。无论如何,网站和搜索引擎之间的旧协议看起来更加脆弱。

重新设计的智能搜索框。 搜索框现在可以同时接受文本、图像、文件和视频,提供由 AI 驱动的建议,这些建议超越了自动完成功能,帮助用户表达复杂问题。用户将越来越多地以丰富、杂乱的信息包而非干净的关键词来表达意图。

  • 分析: 技术用户担心精确搜索正被对话式搜索所取代。这种挫败感是可以理解的。有时用户不希望助手推断意图,他们想要特定的文件、论坛帖子、手册或原始来源。这种区别对产品设计很重要:AI 搜索需要"只给我来源"模式,而不仅仅是综合答案模式。

询问 YouTube。 将 YouTube 搜索转变为对话式体验,提供摘要、上下文感知的后续问题、比较以及指向视频最相关部分的深度链接。现在开始测试,将于今年夏天在美国广泛推出。对于构建者而言,这展示了 AI 如何通过将媒体转化为特定任务指导,使大型非结构化内容库变得有用。

#### 模型与模型经济

Gemini 3.5 Flash。 对构建者而言最重要的模型公告。具有前沿级别的智能,比同类前沿模型快四倍,价格不到一半。谷歌明确说明了经济效益:每天运行一万亿 token 的公司通过将 80% 的工作负载转移到 Flash,每年可节省超过十亿美元。生产型 AI 越来越成为一个路由和成本问题,而不仅仅是基准竞赛。现已通过 API 和谷歌各种产品提供。

  • 分析: 开发者较少关注谷歌的性能声明,而更关注价格跃升。早期反应将 Gemini 3.5 Flash 与早期 Flash 模型、Gemini Pro 以及更便宜的替代品(如 DeepSeek)进行了比较。需要注意的是,宣传的 token 价格低估了实际成本,因为某些基准测试每个任务使用更多 token。情绪并非"这很糟糕",而是更具体:Flash 可能令人印象深刻,但它不再感觉像是廉价的默认层级。对于构建者而言,要点很明确:提供者抽象、缓存、模型路由和成本可观测性现在已成为核心基础设施。

Gemini 3.5 Pro。 正在内部使用,下个月推出。作为 Flash 的更重量级补充。这可能对更深层次的推理、复杂的多模态任务以及质量比延迟或成本更重要的工作负载具有重要意义。

Gemini Omni Flash。 新 Omni 系列的首个模型,现已推出。Omni 是谷歌向任意输入、任意输出 AI 的推进,将 Gemini 与包括 Veo、Nano Banana 和 Genie 在内的生成式媒体模型相结合。对构建者的意义在于,视频、图像、文本和交互式模拟正被整合到一个对话式工作流程中。Omni Pro 即将推出。

对话式视频编辑。 Omni 可以通过自然语言编辑视频(风格更改、添加元素、摄像机角度更改、场景转换),同时保留原始表演。有用的框架是:视频编辑开始表现得像软件迭代。描述更改、检查结果、修改并重复。这对媒体工具、营销工作流程、培训内容和模拟的影响是显著的。

  • 分析: 我感受到的是谨慎的兴趣而非普遍的热情。人们认识到 AI 在创意流程中已经很有用,但他们仍然对那些看似合理却悄悄破坏真实性的输出持怀疑态度。对于团队,我会将这些工具定位为草稿、变体和低风险编辑的加速器,而不是创意判断或事实准确性的替代品。

#### 开发者工具和编码代理

Antigravity 2.0。 谷歌以代理为先的开发平台重建为独立的桌面应用程序,以代理对话、生成的工件和多代理编排为中心。新增功能包括 CLI、SDK、原生语音支持以及与 Android、Firebase 和 Google AI Studio 的集成。转变在于从作为自动完成的 AI 到作为可以规划、生成、测试和迭代的协调开发系统的 AI。今天在全球范围内推出。

  • 分析: 开发者反应冷淡。一些人喜欢 Antigravity 框架,并将集成视为 Google 的优势。另一些人则认为编码体验很糟糕,特别是在更深层次的系统工作中,并认为 Gemini 在代理编码和工具使用方面仍落后于 OpenAI 和 Anthropic。我会谨慎地表述:编排故事很有前景,但从业者将通过其在真实代码库中的可靠性来评判它。

Antigravity Agent 框架。 驱动 Antigravity 和 Gemini Spark 的底层编排框架,具有新的原语:子代理、钩子和异步任务管理。持久的代理产品需要编排基础设施,而不仅仅是一个提示窗口。该框架还为搜索中的生成式 UI 提供支持:它正成为 Google 产品线中的连接组织。

操作系统演示。 Antigravity 和 Gemini 3.5 Flash 在 12 小时内从一个空项目构建了一个可运行操作系统的核心,使用了 93 个子代理、超过 15,000 次模型请求和 26 亿个令牌,API 积分成本不到 1,000 美元。这不是"代理取代工程师",而是关于长期运行、并行、测试驱动的代理工作流程现在成本的一个有用数据点。

CodeMender API。 Google 的代码安全代理(自动发现和修复关键软件漏洞的工具)今天向外部测试人员开放,更广泛的发布即将到来。高价值、重复性、可衡量和可审查:适合谨慎应用的代理式 AI,同时保持强大的人工审查循环。

#### 代理式商务

通用商务协议 (UCP)。 代理式购物(可视为商务代理的 HTTP)的开源标准,涵盖产品发现、结账和货运跟踪。Amazon、Meta、Microsoft、Salesforce 和 Stripe 现在是指导合作伙伴。正在扩展到酒店、本地食品配送、YouTube 以及包括加拿大、澳大利亚和英国在内的其他地区。对于商务公司来说,这是新兴的互操作性层,将决定代理被允许在哪里进行交易。

代理支付协议 (AP2)。 Google 的框架,允许代理在用户定义的控制下进行购买,包括支出限制、批准的品牌、保护隐私的支付处理,以及链接用户、商家和支付处理器的防篡改数字授权。除非用户和商家能够证明代理被授权做什么,否则代理式商务无法运作。这可能是使其可行的问责基础设施。未来几个月将推广到 Google 产品,从 Gemini Spark 开始。

通用购物车。 跨商家的购物车,适用于搜索、Gemini、YouTube 和 Gmail。通过 Google Wallet 跟踪价格下降、价格历史、补货、兼容性问题以及特定卡片的优惠。代理管理持续的购买上下文,而不仅仅是推荐产品。今年夏天将在美国推广到搜索和 Gemini。

Image 1

([enlarge](https://gradientflow.com/wp-content/uploads/2026/05/Google-IO-2026.jpeg))

#### Gemini 应用和日常生产力

采用 Neural Expressive 重新设计的 Gemini 应用。 Gemini 应用已使用新的设计语言从头重建。响应超越了文本墙,进入具有交互式图像、时间线和嵌入视频的动态布局:与搜索相同的生成式 UI 方法,应用于助手。产品经验:AI 助手越来越需要为任务生成正确的界面,而不仅仅是正确的答案。现在正在全球范围内的 Android、iOS 和网络上推出。

Gemini 应用中的 Gemini Omni。 今天已向 Google AI Plus、Pro 和 Ultra 订阅者提供。支持文本、图像和视频输入,将 Gemini 变成多模态创意工作台,而不仅仅是通用聊天助手。

Docs Live。 Google Docs 的语音优先文档创建。倾倒你脑海中的任何内容;Gemini 从 Drive 和 Gmail 中提取上下文,起草内容,格式化表格,并实时编辑。混乱的语音输入变成结构化的工作产品。今年夏天将向 Pro 和 Ultra 订阅者推出,类似语音功能也将应用于 Gmail 和 Keep。

个人智能全球扩展。 上周推出。允许用户安全连接 Gmail、照片和其他应用,以便在 Gemini 中获得个性化帮助。代理质量在很大程度上依赖于私有上下文和跨应用访问,这是更重要的平台举措之一,即使它没有得到头条报道。

支持文件感知语音的 Mac 版 Gemini。 Mac 应用(使用 Antigravity 构建,100 多天内实现了 100 多个功能)今年夏天将获得新的语音功能:在 Finder 中选择文件,按住功能键,口述粗略指令,Gemini 使用多模态理解一起处理 PDF、图像和语音输入。本地上下文加上语音指令等于结构化输出,这是一个值得关注的模式。

NotebookLM 达到 15 亿输出。 NotebookLM 已被用于创建超过 15 亿个笔记本、播客、幻灯片和其他输出。虽然不如自主代理那么引人注目,但基于文档的 AI 仍然是最强大的近期企业用例之一:更容易信任,也更容易部署。

#### 创意和设计工具

Google Pics。 由 Nano Banana 驱动的新 Workspace 图像创建和编辑工具。理解画布中的对象关系,让您可以删除或调整元素大小,编辑和翻译文本,所有输出都带有 SynthID 水印。轻量级创意生产正直接进入生产力软件。今年夏天推出。

Stitch UI 生成器。 从文本或语音提示生成 UI 设计,允许实时协作优化,并导出为代码或直接作为网站启动。过去一年,全球使用 Stitch 生成了超过 1 亿个 UI 屏幕。设计到代码的工作流程正在进入主流原型设计。它不会取代良好的产品判断,但压缩了从想法到可测试界面的时间。更新今日在全球推出。

配备 agents 和 Omni 的 Google Flow。 Flow 获得 Gemini Omni,一个新的多动作 agent,自定义工具创建和音乐混音功能。agent 现在可以同时执行多个动作:从单个图像生成 16 个摄像机角度,或转换整个场景的照明。创意 AI 正从一次性生成转向管理的生产工作流程。

Flow Tools 和 Flow Music。 Flow Tools 让用户能够在 Flow 内部使用自然语言创建自定义创意工具。Flow Music 将粗略的音乐创意转化为更完整的演示和混音。更广泛的理念是:用户不仅将生成媒体资产——他们还将生成用于制作这些资产的工具和工作流程。

#### 信任、来源和安全

Search 和 Chrome 中的 SynthID 和内容凭证。 SynthID 现已为 1000 亿张图像和视频添加了水印。Google 正在将其扩展到 Search 和 Chrome,您可以右键单击任何图像并询问它是否是 AI 生成的。内容凭证验证更进一步,显示内容是来自相机还是 AI,以及随后是否使用生成工具进行了编辑。来源正成为产品功能,而不仅仅是政策辩论。

跨行业 SynthID 采用。 OpenAI、Kakao 和 Eleven Labs 现在正在采用 SynthID,加入 NVIDIA 的行列。只有足够多的主要提供商参与,水印才能大规模发挥作用(这种跨行业采用才是真正的新闻)。对于构建生成媒体产品的团队来说,来源标准可能成为供应商选择和平台合规性的一部分。

#### 科学和物理世界中的 AI

Gemini for Science。 一套新的 AI 工具和 Labs 原型,用于研究工作流程:跟踪新发表的论文,将研究目标转换为可运行代码,生成假设。仍处于早期阶段,但更广泛的观点是,可靠的 AI 产品可能是特定领域的:助手必须理解工作,而不仅仅是总结周围的文本。

WeatherNext。 Google 的飓风预测模型在 2025 年飓风季节提前三天预测到 5 级风暴将袭击牙买加,比传统模型更准确。国家飓风中心现在将其视为其标准预测工具包的一部分。这是 AI 模拟的一个具体、真实世界的部署,已经在拯救生命。

AlphaEarth Foundations。 Google 最接近地球数字孪生的版本,旨在模拟森林砍伐和粮食安全等复杂系统。指向一个重要的应用模式:AI 作为那些直接实验缓慢、昂贵或不可能的领域的模拟器。

AI 用于药物发现。 AlphaFold 和 AlphaGenome 已经是数百万科学家的标准研究工具。Isomorphic Labs 现在处于多个项目的临床前阶段,包括免疫紊乱和癌症的潜在治疗方法。临床前阶段仍处于早期,但战略信息很明确:Google 希望 AI 被定位为科学和医学的发现基础设施,而不仅仅是生产力层。

#### 硬件和基础设施

TPU 8t 和 TPU 8i。 Google 第八代 TPU 首次采用双芯片方法:8t 针对大规模预训练优化,8i 针对低延迟推理优化。训练和推理经济学的差异已经足够大,足以证明专用硬件的合理性。8i 在演示中达到近每秒 1,500 个 token;两款芯片的每瓦性能提升高达 2 倍。

跨 100 万+ TPU 的分布式训练。 JAX 和 Pathways 现在让 Google 能够跨多个数据中心分配训练,在全球范围内扩展到超过 100 万个 TPU。前沿模型训练正成为一个分布式系统问题:瓶颈不仅仅是芯片,还有网络、调度、可靠性和协调。

Token 需求作为业务指标。 Google 的服务现在每月处理 3.2 千万亿个 token,模型 API 每分钟处理约 190 亿个 token,每月有 850 万开发者使用其模型进行构建。Token 预算、模型路由、缓存、批处理和任务设计正在成为大规模部署 AI 的公司的核心运营规范。

#### 扩展现实

Gemini 驱动的音频眼镜。 今年秋季推出,与三星(硬件)、Warby Parker 和 Gentle Monster(设计)合作。仅音频,无显示屏:全天在您耳边提供私密的 Gemini 帮助,用于导航、消息传递、应用控制和摄影。与 Android 和 iOS 兼容。现场演示展示了 Gemini 从记忆中导航到某个位置,通过语音下 DoorDash 订单,总结错过的消息,以及添加日历事件。对于构建语音优先或环境计算体验的团队来说,这是 Android XR 生态系统中第一个值得关注的真实消费硬件。

Android XR 显示眼镜。 具有小镜片显示屏的显示眼镜正处于开发者预览阶段,可信测试者计划将在今年晚些时候扩展。功能包括可一目了然的上下文信息、实时翻译以及通过"创建我的小部件"功能自定义小部件。对于构建者来说,这是 agent 故事从屏幕进入物理环境:免提、一目了然和环境化。

AI 可能会生成不准确的信息,请核实重要内容