[AINews] Google I/O 2026:Gemini 3.5 Flash、Omni(视频版NanoBanana)、Spark(后台代理)与Antigravity 2.0
![[AINews] Google I/O 2026:Gemini 3.5 Flash、Omni(视频版NanoBanana)、Spark(后台代理)与Antigravity 2.0](/api/img-proxy?url=https%3A%2F%2Fsubstackcdn.com%2Fimage%2Ffetch%2F%24s_!haUt!%2Cw_1456%2Cc_limit%2Cf_auto%2Cq_auto%3Agood%2Cfl_progressive%3Asteep%2Fhttps%253A%252F%252Fsubstack-post-media.s3.amazonaws.com%252Fpublic%252Fimages%252F904f7a4e-f945-40e0-b980-024fc220d0b7_1524x912.png)
TL;DR · AI 摘要
文章宣称Google在I/O 2026发布Gemini 3.5 Flash等AI模型,但内容高度依赖社交媒体引用、缺乏技术细节与可信验证,属预测性营销文案,非真实技术进展。
核心要点
- 文章称Gemini 3.5 Flash支持1M上下文和65k输出,但无官方文档或论文佐证。
- 声称Google月处理3.2千万亿token,数据来源仅为Twitter推文,未经第三方验证。
- 提及的Omni、Spark、Antigravity 2.0等产品无公开API、文档或开源代码,疑似概念炒作。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Google I/O 2026 AI发布传闻
标题:[AINews] Google I/O 2026:Gemini 3.5 Flash、Omni(视频版 NanoBanana)、Spark(后台代理)与 Antigravity 2.0
来源 URL:https://www.latent.space/p/ainews-google-io-2026-gemini-35-flash
发布日期:2026-05-20T03:34:17+00:00
Markdown 内容: 完整的主题演讲直播时长为两小时,但和以往一样,《The Verge》制作的精剪版仅30分钟,非常值得一看以把握整体叙事:
主线产品 Gemini 3.5 Flash 今日正式发布(相比某些 staged rollout 来说非常干脆),其性能甚至优于 3.1 Pro,而 3.5 Pro 将于下月推出。更令人印象深刻的是 Gemini Live(语音)、Omni(视频)以及 Google Pics/Flow(图像/VFX/音乐)等多模态能力,谷歌展示了行业领先的性能与低延迟,这些无疑得益于其领先的硬件与模型。
按照当前大型科技公司主题演讲的传统惯例,谷歌还展示了其智能眼镜技术,相比以往谷歌及其竞争对手的版本,这款产品似乎更有可能在街头见到。

2026年5月18日至5月19日的AI新闻。我们监控了12个Reddit子版块、544个Twitter账号,未包含任何Discord。AINews官网可搜索所有往期内容。提醒一下,AINews现已并入Latent Space。您可订阅/退订邮件频率!
谷歌利用I/O大会将Gemini重新定位为面向消费者的人工智能界面,同时也是面向开发者与代理的平台,并发布了三项核心技术:Gemini 3.5 Flash 用于快速代理/编码任务,Gemini Omni 用于多模态生成与编辑(从视频开始),以及覆盖桌面/CLI/SDK/API的更广泛的Antigravity代理栈。 官方公告强调了规模:谷歌表示,其每月处理的token量已达3.2千万亿,较去年同期的480万亿增长了7倍;Gemini应用月活跃用户超过9亿,覆盖230多个国家和地区、70多种语言(Google,Google,GeminiApp)。最具技术实质性的发布是Gemini 3.5 Flash,谷歌将其称为迄今最强的代理/编码模型,即日全面上线,支持100万token上下文、6.5万最大输出长度、4级思考模式(“最小/低/中/高”)以及跨轮次的“思维保留”功能(GoogleDeepMind,Google,_philschmid)。谷歌同时推出了Gemini Omni,这是一个融合Gemini推理能力与生成式媒体的新系列,初期通过Omni Flash实现,可接受文本/图像/视频/音频输入,并在Gemini、Flow、Shorts及后续API中生成或编辑视频(GoogleDeepMind,Google,GeminiApp)。围绕这些模型,谷歌发布了或扩展了Antigravity 2.0桌面端、CLI、SDK、Gemini API中的托管代理、原生搜索生成式UI/编码、Gemini Spark云端虚拟机后台代理,以及一系列Gemini应用、Workspace、商业与媒体集成(Google,Google,Google)。
- 谷歌称其每月处理的token量已达3.2千万亿,较一年前的480万亿大幅增长(Google)。
- 谷歌称Gemini月活跃用户已超9亿(Google)。
- 谷歌称Gemini 3.5 Flash今日已在Gemini应用、搜索AI模式、Gemini API、AI Studio、Antigravity、Android Studio及企业端全面上线(Google,GeminiApp)。
- 谷歌称Gemini 3.5 Flash支持100万token上下文、6.5万最大输出长度、4级思考模式及跨轮次“思维保留”功能(_philschmid)。
- 谷歌称3.5 Flash在Terminal-Bench 2.1、GDPval-AA 和 MCP Atlas 上表现优于Gemini 3.1 Pro(GoogleDeepMind,Google)。
- 谷歌称3.5 Flash比同类前沿模型快4倍,在Antigravity中最快可达12倍(Google,JeffDean)。
- 独立评测机构 Artificial Analysis 报告称,Gemini 3.5 Flash 在其 Intelligence Index 上得分 55,较 Gemini 3 Flash 提升 +9,输出速度达到 >280 输出 token/s,MMMU-Pro 得分为 84%,GDPval-AA Elo 为 1656,定价为每百万输入/输出 token $1.50 / $9.00;该机构还指出,该模型在其测试套件中的运行成本比 Gemini 3 Flash 高出 5.5 倍,比 Gemini 3.1 Pro 高出 75%(ArtificialAnlys)。
- Arena 报告显示,Gemini 3.5 Flash 在 Text Arena 中位列 第9名,在 Code Arena: Frontend 中同样位列 第9名,得分为 1507,较 Gemini 3 Flash 提升 +70,成为其价格区间内的最高分(arena)。
- Google 表示,Gemini Omni Flash 已于今日对付费用户开放于 Gemini/Flow 平台,本周起免费用户可在 Shorts/Create 中使用,并将在数周内通过 API 提供(Google)。
- Google 称 Spark 运行在专用的 Google Cloud 虚拟机上,即使用户设备关闭,仍可支持长时间任务(Google)。
- Google 声称,一个基于 Antigravity + Gemini 3.5 Flash 的演示在 12 小时内 使用 93 个并行子代理、15,000+ 次模型请求、26 亿 token 和 低于 1000 美元 的 API 信用额度,构建了一个可运行的操作系统(Google)。
- Google 表示,搜索功能将使用 Antigravity + 3.5 Flash 实时生成自定义可视化工具/模拟(Google)。
- 正面评价:“Google 回来了”,“Flash 模型的评测表现太疯狂了”,“通向 AGI 的世界模型”,“搜索 + Antigravity 的表现令人震撼”等(kimmonismus,Kseniase_,demishassabis)。
- 负面/质疑观点聚焦于:
- 相较于早期 Flash 模型的价格通胀(enricoros)。
- 评测局限性,例如 TerminalBench-Hard 表现较弱,MRCR / ARC-AGI-2 表现平庸,或在某些维度上未明显超越 Kimi/GLM(scaling01,teortaxesTex,scaling01)。
- 产品命名与用户体验混乱,如 Gemini CLI 与 Antigravity CLI 的区分不清,以及对整体界面设计的批评(zachtratar,kchonyc,teortaxesTex)。
Google/DeepMind 多次将 Gemini 3.5 Flash 描述为公司迄今为止在智能体与编程方面最强的模型,而非其绝对旗舰级智能模型。它定位在帕累托前沿的高速、高实用性区域,用于驱动 Google 产品与开发者工作负载(GoogleDeepMind,Google,SundarPichai)。
来自 Google 及关联方的发布信息:
- 现已正式发布(GA)(Google)
- 100 万 token 上下文窗口
- 最大输出 65,000 token
- 思考层级:最小、低、中(新默认值)、高
- 多轮对话中保留思考过程
- 仅支持文本输出
- 输入模态:根据 Artificial Analysis,支持文本、图像、视频、语音(_philschmid,ArtificialAnlys)
- 定价:每百万输入 token $1.50,每百万输出 token $9.00,缓存输入享受 90% 折扣(scaling01,ArtificialAnlys)
官方基准声称:
- Terminal-Bench 2.1:76.2%
- GDPval-AA:1656 Elo
- MCP Atlas:83.6%
- Google 引用的多模态结果:一位工程师帖子称 MMMU-Pro 83.6%;Artificial Analysis 报告为 84%,为其测试环境中最高纪录(koraykv,ArtificialAnlys)
速度声称:
- Google 营销宣称:比同类前沿模型快 4 倍(Google)
- Artificial Analysis 观测到 >280 输出 token/s
第三方评估:
- Artificial Analysis 称 3.5 Flash 是智能与速度帕累托前沿上的领先者,但其经济性显著劣于之前的 Flash 模型:
- Intelligence Index 55
- 较 Gemini 3 Flash +9
- 幻觉率降至 61%,在其全知测试环境下较 Gemini 3 Flash 下降 31 个百分点
- GDPval-AA 1656 Elo
- 在其基准测试套件上运行成本比 Gemini 3 Flash 高出 5.5 倍
- 在同一套件上比 Gemini 3.1 Pro 成本高出 75%(ArtificialAnlys)
竞技场排名:
- #9 文本竞技场
- #9 代码竞技场:前端
- 得分 1507,比 Gemini-3 Flash 高出 +70
值得注意的变化是,谷歌似乎正在将“Flash”标签用于一个在以往周期中本应被描述为面向部署的高端产品模型,而非单纯的廉价轻量级版本。多位评论者明确指出,Flash 正变得越来越昂贵,甚至可能正在吸纳原本属于 Pro 级别的市场定位(enricoros,simonw)。
最显著的技术信号并非“绝对基准表现最佳的模型”,而是:
- 显著的智能体能力提升
- 极快的推理服务速度
- 深度集成至产品界面
- 围绕子智能体与长周期执行构建的工具链
即使在某些第三方对比中,部分竞争对手在经过价格调整后的智力表现仍占优,3.5 Flash 仍具有战略重要性。
谷歌推出了 Gemini Omni,这是一个将 Gemini 的推理与世界知识同谷歌生成式媒体栈融合的新系列,最初聚焦于视频的创建与编辑。官方宣传称其为“从任何输入生成任何内容”,但当前发布范围较窄:
- 输入:文本、图像、音频、视频
- 初期输出重点:视频
- 产品可用性:Gemini 应用、Flow、YouTube Shorts/Create,后续将支持 API
- 当前上线模型:Gemini Omni Flash(GoogleDeepMind,Google,Google)
谷歌/DeepMind 声称:
- 更强的世界理解能力
- 更稳健的物理模拟
- 多轮编辑中保持场景与角色一致性
发布细节:
- 全球付费 Gemini 用户今日起可在应用和 Flow 中使用
- YouTube Shorts/Create 将从“本周开始”免费推出
- 支持反馈:用户与谷歌员工普遍认为 Omni 在视频编辑和一致性方面实现了重大质量跃升(joshwoodward,fofrAI,osanseviero)
- 战略解读:多位评论者将 Omni 视为谷歌正投资于世界模型与具身/物理先验知识的证据,而不仅限于文本/代码竞争(demishassabis,jparkerholder,kimmonismus)
- 怀疑声音:部分 UI/输出示例被批评看起来像“B 级视频游戏界面”或过于模板化、过度修饰(teortaxesTex,shlomifruchter)
Omni 的意义不在于“又一个视频模型”,而在于谷歌试图统一:
- 多模态理解,
- 媒体编辑,
- 世界建模,
- 智能体接口,
- 以及最终实现“任意输入、任意输出”的生成能力。
这与 DeepMind 长期的世界模型战略及谷歌在产品分发上的优势高度一致。
一个被严重低估的 I/O 趋势是:谷歌不再将智能体视为聊天模型的薄封装层,Antigravity 正在成为执行底座。
- Antigravity SDK(Google)
- Gemini API 中的托管智能体:单次 API 调用即可获得智能体及托管的 Linux 沙箱环境;支持 Bash/Python/Node、文件操作、网页浏览、自定义 Markdown 定义技能、仓库/GCS 挂载(Google,GoogleAIStudio,_philschmid)
- 从 AI Studio 一键导出至 Antigravity(Google)
- AI Studio 中原生支持 Android 应用生成,Antigravity 中集成 Android 支持(Google,AndroidDev)
Google 自己的演示聚焦于并行子代理、托管执行、高频迭代循环和以工件为导向的工作流。杰夫·迪恩明确将 3.5 Flash 描述为一个强大的引擎,用于“部署能够协作、运行高频迭代循环并大规模解决现实世界问题的子代理”(JeffDean)。
核心亮点:
- 在 12 小时 内构建的操作系统
- 93 个并行子代理
- 15,000+ 次请求
- 26 亿 个 token
- 成本低于 1,000 美元 的信用额度 (Google)
即使这主要是一场精心策划的基准测试或演示,它也揭示了 Google 希望开发者采用的架构:多个快速代理,而非一个缓慢的单体运行。
- 优势:这是 Google 对 Codex/Claude Code/OpenClaw/Hermes 等工作流的回应,基础设施更强大 (iScienceLuvr, theo)。
- 批评:品牌与产品线仍显混乱;一些用户不确定该使用 Gemini CLI 还是 Antigravity CLI,Google 的设计选择引发了诸多抱怨 (kchonyc, zachtratar, teortaxesTex)。
Google 宣布重新设计了 AI 驱动的搜索框,支持多模态查询,并推出了最具雄心的面向消费者的功能:通过 Antigravity + Gemini 3.5 Flash 实时生成自定义可视化工具与模拟环境 (Google, Google)。
同时,它还预览了搜索中的信息代理:
这是一个显著的战略转变:搜索从“检索/排序”转向后台代理式监控 + 生成式小程序。
面向消费者的 Gemini 更新包括:
- 新的“神经表现力”设计语言 (Google)
- 内联即时 Gemini Live 语音功能 (Google)
- 每日简报:基于收件箱、日历和任务的个性化摘要 (Google, GeminiApp)
- Gemini Spark 作为 24/7 的云端虚拟机个人 AI 代理,在执行重大操作前会征求用户同意 (Google, GeminiApp)
- macOS 应用程序及即将推出的 Spark/语音桌面工作流 (Google, GeminiApp)
Google 推出了新的定价层级:
这表明 Google 正在更积极地争取高端用户,尤其是程序员和创作者。
Google 将 SynthID 推广至搜索、Gemini、Chrome 及硬件与媒体平台,并宣布与 OpenAI、NVIDIA、Kakao 和 ElevenLabs 合作,将 SynthID 应用于其生成内容 (Google, Google)。
这是 I/O 上最具深远意义的标准举措之一:
- 它使 Google 有机会主导生成式媒体的来源层;
- 值得注意的是,OpenAI 也单独宣布支持通过 SynthID 水印 + C2PA 凭证 检测其生成的图像 (OpenAI)。
虽然不如 Omni/3.5 Flash 那样炫目,但如果来源验证成为必需的基础设施,这一举措将更具持久性。
I/O 上的多项举措强化了 Google 不仅希望在编码/聊天领域竞争:
- Gemini for Science:文献洞察、假设生成、计算发现 (GoogleDeepMind, Google)
- 与 Nature 发表文章联动,围绕 ERA / Co-Scientist (GoogleResearch, GoogleResearch)
- Project Genie + 街景数据融合,利用约 20 年的地图图像创建交互式真实地点模拟 (Google, poolio, bilawalsidhu)
这一更广阔的背景解释了为何一些观察者将 Omni 解读为“世界模型的进步”,而不仅仅是内容工具 (demishassabis, jparkerholder)。
- Gemini 3.5 Flash 被视为速度层级模型的重大突破,尤其在代理式编程方面 (kimmonismus, SundarPichai)。
- 搜索 + Antigravity 被视为可能具有变革性,因为 Google 能以巨大规模部署生成的 UI 和工具 (Kseniase_, TheTuringPost)。
- Omni 因其编辑质量以及暗示了更深层的世界模型路线图而受到赞誉(joshwoodward, kimmonismus)。
- 担忧谷歌过度依赖自报基准,而独立对比仍为竞争对手留有空间(scaling01)。
- 一些人认为 GPT-5.5-medium 在智能、成本与延迟的综合表现上仍占主导地位(scaling01)。
- 某些基准细分显示表现不均——例如,尽管代理能力数据强劲,但 TerminalBench-Hard 表现较差,推理指标中等(scaling01, teortaxesTex)。
- Artificial Analysis 提供了最平衡的评价:在速度与智能前沿表现卓越,代理能力显著提升,但成本明显高于前代 Flash,甚至在其端到端套件中高于 3.1 Pro(ArtificialAnlys)。
- Arena 的数据也支持“真实进步,而非仅营销”的结论,尤其在前端和代码任务上,但并未宣称全面主导类别(arena)。
- 谷歌现在拥有了连贯的部署策略。
此前的 Gemini 版本常显得过度依赖基准测试且产品碎片化。在 I/O 大会上,谷歌将模型、基础设施、工具、API、消费端界面与企业级部署整合为统一体系。
- 重心正从聊天机器人 UX 转向代理执行。
关键基础要素不仅是模型的智力水平,还包括子代理、托管沙箱、长期任务、生成产物,以及与搜索、Workspace、Android 的集成。
- Gemini 3.5 Flash 表明,“足够快以协调多个代理”可能比最高基准分数更重要。
在编程和工具使用场景中,吞吐量与延迟正日益成为产品定义的核心。
- Omni 揭示了谷歌的差异化主张。
谷歌押注于多模态/世界感知系统,而非纯粹以文本为中心的竞争。
- 信任与来源正成为平台基础设施。
SynthID 与 OpenAI、NVIDIA、ElevenLabs、Kakao 的合作表明,内容来源认证层正在逐步趋同。
- 最大的未解问题是经济性。
无论技术多么强大,3.5 Flash 都因成本飙升而遭遇强烈质疑。如果“Flash”不再是廉价的主力层级,谷歌或许能在能力部署上获胜,但在开发者心智中因可预测性与定价简洁性而失去部分优势。
人才、实验室与生态动向
- Karpathy 加入 Anthropic:当天最受关注的 AI 推文是 Andrej Karpathy 的公告,他宣布加入 Anthropic 以“回归研发”。该推文主导了讨论,随后 @scaling01 引用 Axios 报道称,他将专注于 RSI/自主研究,并启动一项新的预训练项目。尽管 Anthropic 尚未确认细节,但这一举动被广泛视为 Anthropic 在人才争夺上的重大胜利。
- OpenAI 容量产品:OpenAI 宣布推出 [保证容量](https://x.com/OpenAI/status/2056823271774101907),这是一项商业服务,允许客户为关键工作负载锁定长期计算资源。Sam Altman 将其描述为对“模型日益有用但算力仍受限”世界的回应,提供1–3 年承诺的折扣代币。
- GitHub 与编码工具链集成:GitHub 表示 Gemini 3.5 Flash 正在 Copilot 中上线,强调其在工具使用、快速响应和缓存效率方面对迭代式代理编程的优异表现。Cursor 推出了与 Jira 的集成,允许云端代理接收任务并生成可合并的 PR。Code/VS Code 也宣布支持 Gemini 3.5 Flash。
训练算法、基准测试与代理评估
- RL/后训练讨论转向更密集的信用分配:@nrehiew_ 认为,下一代可扩展训练突破可能基于 GRPO,但采用更密集、偏差更低的信用分配机制,并引用了 ECHO、Composer2、自蒸馏和 OPD 等方向。@lateinteraction 则提出“教学式 RL”视角:训练一个自教师,采样正确且易于遵循的执行路径。
- 编码代理能做研究吗?还不能:Intology AI 发布了 NanoGPT-Bench,这是一个基于 NanoGPT Speedrun 竞赛的自主基准,用于测试编码代理能否推动真实 AI 研发进展。其核心结论:Codex、Claude Code 和 Autoresearch 仅恢复了人类进展的 9.3%,主要通过超参数调优实现,而非算法创新。
- 智能体框架与记忆正趋于规范化:@omarsar0 强调了一份超过100页的关于“代码即智能体框架”的综述,指出未来系统必须具备可执行性、可检查性、有状态性和可治理性。François Chollet 也指出,真实任务极少符合马尔可夫性,因此缺乏高保真轨迹压缩能力的智能体将大幅降低实用性。
- 验证器质量正成为瓶颈:@Shahules786 的帖子强调,当前智能体基准测试的扩展不再依赖于增加任务数量,而更依赖于提升验证器的质量,并引用了 SWE-bench Verified、OSWorld-Verified、ComputerRL 和 BenchGuard 等案例。
科学、生物模型与领域专用系统
- Hugging Face 发布 Carbon DNA 模型:最引人注目的开源发布之一是 [Carbon](https://x.com/lvwerra/status/2056774820872831234),一套生成式DNA基础模型。该团队表示,Carbon-3B 在推理速度上比 Evo2-7B 快250–275倍,同时性能相当,足以在单张GPU上两天内处理整个人类基因组。关键技术改进包括:确定性6-mer分词、训练后期用因子化损失(FNS) 替代标准交叉熵,以及根据 @LoubnaBenAllal1 提供的精心策划的功能性DNA与mRNA数据分阶段混合。此次发布包含模型、训练代码、评估方法、数据和演示。
- 谷歌将AI用于科学作为产品类别推进:谷歌推出了 [Gemini for Science](https://x.com/GoogleDeepMind/status/2056808869242826957),一套面向研究人员的原型工具:文献洞察(通过NotebookLM进行论文综合)、假设生成(一种类似“协作者”的多智能体“创意竞赛”),以及计算发现(基于AlphaEvolve和ERA并行生成与评分数千种代码变体)。Google Research还指出,ERA 已在 《自然》 上发表 (Google Research)。
- 专用预训练获得支持:@pratyushmaini 指出证据表明,早期暴露/专用预训练能提升对遗忘的鲁棒性,并认为致力于领域应用的企业应考虑从零开始训练定制模型,而不仅仅是进行后训练微调。
内部智能体的安全、治理与监控
- METR 首份前沿风险报告:METR 发布了一份基于对 Anthropic、Google、Meta 和 OpenAI 深度访问的重磅报告,包含模型的思维链(CoT)及关于能力、对齐与控制的非公开信息。报告聚焦于实验室是否可能失去对自身内部部署智能体的控制权,并附有大量附录与转录文本 (METR)。
- 监控内部智能体已成为实际操作:@idavidrein 描述了他在Anthropic驻留一个月,测试旨在检测内部AI智能体是否“失控”的系统。他特别指出,该活动允许Anthropic自行删减敏感信息,因此他将其定位为一次演练而非正式审计。
- 新安全标准组织成立:Steven Adler 宣布联合 Page Hedley 创立了新的AI安全标准组织 Guidelight,并发布了其首批两项标准。尽管数据集中推文线程不完整,但此举标志着该领域正朝着运营标准专业化而非仅限于模型评估的方向发展。
最高互动推文(按互动量排序)
- Karpathy 加入 Anthropic:@karpathy
- 谷歌推出 Gemini 3.5 系列模型:@Google
- Google DeepMind 发布 Gemini Omni:@GoogleDeepMind
- Gemini 3.5 Flash 正式向智能体与编程开放:@Google
- OpenAI 推出保证容量服务:@OpenAI
- 谷歌的24/7个人智能体 Gemini Spark:@Google