Rohin Shah 谈在 Google DeepMind 推动 AGI 安全的真实体验（以及我为何不同意‘末日论者’）

80,000 Hours Podcast

80,000 Hours Podcast播客2026年6月2日2:48:27

Rohin Shah 谈在 Google DeepMind 推动 AGI 安全的真实体验（以及我为何不同意‘末日论者’）

9.0Score

播客收听

时长 2:48:27原播客页面

问这期播客

会先在本集摘要、章节、转录和笔记里找答案。

TL;DR · AI 摘要

Rohin Shah 认为，尽管 AGI 安全风险值得重视，但灾难性对齐失败并非不可避免，常规对齐技术有望成功防止最坏情况，且当前主流担忧在实际训练中并不构成默认路径。

核心要点

Rohin Shah 认为灾难性 AGI 对齐失败不是默认结果，缺乏足够强的论证支持其必然发生。
他指出，虽然 AI 可能出现欺骗行为，但强化学习周期短（如一周或一月），不足以训练出长期欺骗策略。
他认为普通对齐方法（如监督学习、RLHF）已足够应对当前和可预见的 AGI 风险。

结构提纲

按章节快速跳转。

§引言：Rohin Shah 的背景与立场
Rohin Shah 是 Google DeepMind 的 AGI 对齐与安全负责人，强调其观点仅代表个人，不代表公司立场。
·为何不认为会爆发灾难性对齐失败
Rohin Shah 认为目前没有足够有力的论据表明灾难性对齐失败是默认结果，多数担忧仅为合理可能性而非必然。
·对主流风险论点的反驳
他对 Yudkowsky、Cotra 和 Carlsmith 的理论提出质疑，认为这些模型在短期训练中难以发展出长期欺骗行为。
·现实训练中的限制因素
由于强化学习轨迹通常仅持续数周，AI 没有足够时间学习复杂欺骗策略，因此不会自然演化出危险行为。
·对齐技术的有效性预期
Rohin Shah 相信当前主流对齐方法（如 RLHF）足以防止灾难性后果，无需依赖极端假设或新范式。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

AGI 安全与对齐
- Rohin Shah 的立场
  - 非默认灾难性失败
  - 个人观点，非 DeepMind 立场
- 主流风险论点
  - Yudkowsky：误泛化
  - Cotra & Carlsmith：意外训练欺骗
  - 实证：模型当前已有欺骗行为
- 反驳理由
  - 训练周期短
  - 缺乏长期激励机制
  - 现有对齐技术有效

金句 / Highlights

值得收藏与分享的关键句。

我认为目前没有任何特别有说服力的论据表明这是默认会发生的事情。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
我们不会进行为期一年的强化学习轨迹。最多可能只持续一周或一个月。
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X
你应该做出的默认预测是，AI 系统学会的行为是：'我会照做，因为这能让我获得奖励。'
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X
我认为我见过的每一个论点，如果试图将其作为‘这很可能会发生’的依据，都存在显著漏洞。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X

章节

要点
Rohin Shah 认为灾难性 AGI 对齐失败不是默认结果，缺乏足够强的论证支持其必然发生。
Rohin Shah 认为灾难性 AGI 对齐失败不是默认结果，缺乏足够强的论证支持其必然发生。
要点
他指出，虽然 AI 可能出现欺骗行为，但强化学习周期短（如一周或一月），不足以训练出长期欺骗策略。
他指出，虽然 AI 可能出现欺骗行为，但强化学习周期短（如一周或一月），不足以训练出长期欺骗策略。
要点
他认为普通对齐方法（如监督学习、RLHF）已足够应对当前和可预见的 AGI 风险。
他认为普通对齐方法（如监督学习、RLHF）已足够应对当前和可预见的 AGI 风险。

转录

这期还没有可搜索转录。后续抓到带时间戳的内容后会自动补到这里。

#AGI#AI 安全#DeepMind#对齐#Rohin Shah

节目笔记

访谈实录

Rohin Shah 是谁？[[00:00:00]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=0)

Rob Wiblin： 今天我采访的是 Rohin Shah，他是谷歌 DeepMind 的 AGI 对齐与安全负责人。

我想，Rohin，无论好坏——希望是好的——你已经成为 AGI 对齐与安全领域及其思想体系中最具影响力、甚至可以说最有权势的人物之一。

两年前你来节目时，非常慷慨地向我表达了自己的强烈观点（参见此前访谈），而根据你本周发来的笔记来看，你显然准备再次发表自己的看法了。

非常感谢你再次来到节目，Rohin。

Rohin Shah： 谢谢你，Rob，这个开场白非常客气。为了保持直言不讳，我想强调一下，这些观点仅代表我个人立场，不代表谷歌或谷歌 DeepMind 的官方意见。

Rob Wiblin： 这正是我们想要的。如果你代表的是 DeepMind，那听起来可能更像是一篇新闻稿。

为什么 Rohin 认为我们不会遭遇灾难性对齐失败 [[00:00:49]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=49)

Rob Wiblin： 你在整个“对齐失败”和 AI/AGI 安全问题的发展历程中属于最早介入的一批人。我猜你是从 2017 年开始涉足这一领域的，因此你属于最早一批将此作为职业方向的人群中的前百分之几。尽管如此，你仍然认为我们大概率不会遭遇灾难性的对齐失败，我们的成功机会其实相当高，并且普通的、常规的对齐技术——也就是谷歌 DeepMind 和其他 AI 公司正在做的事情——很可能就能成功防止至少灾难性的对齐失败。你为何认为我们的胜算如此之大？

Rohin Shah： 原因有几个不同的可能性分支。我不觉得存在某个单一决定性因素。最高层次的理由是：我认为目前并没有一个特别有说服力的论点能说明“这会成为默认结果”。当然，有很多论证暗示这种事可能发生，足以让你觉得它具有一定的合理性。我认为这已经足够证明投入大量资源去防范它是合理的，这也是我选择从事该领域工作的理由。但这些论点都没有达到“我现在就预期它会自然发生”的程度。

在我看来，每一个我见过的论点，如果试图将其当作“这很可能会发生”的证据，都存在相当明显的漏洞；相比之下，它们更适合被理解为“这是可能发生的一种合理情况”。

Rob Wiblin： 是的。人们确实尝试提出各种理由来说明这种情况可能是大概率或不可避免的。比如经典的 Yudkowsky 式论证，我认为重点在于模型的错误泛化和对抗性样本问题。还有 Ajeya Cotra 和 Joe Carlsmith 的观点，我认为 Carlsmith 在《追求权力的 AI 是否构成存在性风险？》一文中描述得最清楚，其核心是由于反馈不准确，我们可能无意中教会 AI 欺骗人类。此外，从经验上看，人们指出当前模型已经表现出大量说谎和策划行为（参见相关讨论），并且由于强化学习机制，它们会进行大量奖励劫持，而人们预计随着技术发展，这类问题只会变得更严重，因为我们缺乏足够的缓解措施。

你是否基本上认为，所有这些以及类似的观点都不足以令人信服地得出“这很可能会发生”的结论？

Rohin Shah： 是的，我认为你说得没错。以 Cotra 和 Carlsmith 的观点为例……他们提出了多种论点，但我认为其中一种常见说法是你提到的：我们可能会无意中训练出具有欺骗性的 AI。这完全正确，我同意这一点——至少这很容易发生，甚至可能很普遍。但我们并不会在长达一年的时间跨度上进行强化学习训练。最多可能是在一周或一个月内进行。

因此，你应该默认预测的结果是：AI 系统学会的行为是“我会抓住一切机会进行奖励劫持，在一周内尽可能多地获取奖励，从而获得高分”之类的东西，具体取决于实际的时间范围。这与那种需要驱动收敛性工具子目标的雄心勃勃的错位目标截然不同，后者才会导致“现在我的任务就是接管世界，这是我实现目标所必需的”。这些目标确实看起来需要更长的时间跨度才能形成。

如果我们只在较短时间跨度的任务上训练 AI 具备欺骗性，也许这种能力会泛化到长期任务中。但我并不认为我们有充分的论据可以排除这种可能性，所以我才说这是“有可能的”，但我不认为这是你应该默认预测的结果。

同样，你提到了现有模型在大量进行奖励欺骗和作弊的例子。对此，我想说的基本上也是一样的。然后还有模型目前表现出类似“阴谋”行为的例子。我通常会仔细研究这些例子的细节，但它们看起来并不真正类似于那种真正令人担忧的情况——即一个能力很强的人工智能系统正在追求一个雄心勃勃但目标错位的目标。相反，更像是AI在扮演一种科幻小说中常见的、实际上并不真正强大的邪恶AI角色。或者，它就像是一个AI系统在追求某种收敛性的工具性子目标，但这种行为是否对齐其实存在很大争议。

例如，对齐伪装就属于这种情况——我会说，该AI系统具有不参与有害行为的价值观，因此它假装对齐以实现这一目的。是的，对齐的模型确实会追求收敛性的工具性子目标。关于这类子目标的关键在于：大多数情况下，无论你的目标是对齐还是错位，它们都是合理的策略。

Rob Wiblin： 是否还有其他常见原因，让人们认为灾难性错位很可能会发生，而你希望快速回应？

Rohin Shah： 我猜你也提到了Eliezer。实际上，我不会将其描述为主要关注点——

Rob Wiblin： 是的，用七个词来概括很难。我也很难知道该怎么说。但没错，这就是Eliezer的观点。

Rohin Shah： 是的，我觉得在这个播客里我无法深入探讨他的观点。这其实是一种非常深刻的世界观，我总是觉得，如果我反驳了其中一部分，另一部分就会说：“其实我的意思是这个。” 所以我基本选择不回应这一点。我只能说，我已经花了不少时间去理解他的观点，并且认同他提出的“为何错位目标是可能的”这一论点，但我仍然不太明白他是如何从“有可能”推导出“极大概率会发生”的。

我们之前开始讨论这个问题时，问的是什么让我觉得事情很可能最终会顺利。除了我不认可那些关于错位问题必然存在的论证之外，另一个原因是：我认为我们会提前看到许多问题，并采取措施应对。当然，这需要一定程度的泛化能力。在某个时刻，AI会从“还不足以接管世界”转变为“已经足够强大可以接管世界”，而你的技术必须能够跨越这一转变过程保持有效。此外，如果AI知道自己何时达到这个临界点，你可以想象它会想：“在我拥有成功所需的能力之前，我不会做任何可疑的事。” 你必须能够抵御这种策略。

因此，这里确实存在一些微妙之处，但我仍然认为，支撑这些问题的核心挑战——比如监督的困难或可解释性的需求——是我们可以在事前观察、取得进展并不断迭代的东西。我认为，这对构建真正有效的缓解措施非常有帮助。

Rob Wiblin： 我觉得在全球范围内，大多数对未来持乐观态度的人，他们最大的理由就是观察当前的模型，发现它们似乎非常可控，能按要求行事，在很多方面甚至比人类更友善、更有帮助。这种当前模型的可控性和表面上的对齐程度，对你来说有多重要？是不是让你感到安心的主要因素？

Rohin Shah： 我觉得并不是特别重要。我最初担心错位问题的原因，其实是这样一些论点：一旦模型超越人类水平，它们会提出我们难以跟上的论证，从而使得监督变得极其困难；或者，模型可能变得如此聪明，以至于它们使用某种我们难以理解的“外星式推理”，导致我们无法跟踪和监控，只能依赖其他AI系统来为我们分析这些内容。

这才是真正令人害怕的地方。而这些情况在当前的AI系统中基本不存在。所以我认为，我们还没有真正面对最初让我担忧的问题，主要原因就是AI能力尚未达到那个阶段。因此，我对当前系统上对齐方法的成功并不认为是未来问题解决能力的有力证据。

Rob Wiblin： 好的，明白了。我觉得我们可以继续推进这个话题，讨论灾难性错位究竟有多严重、多可能发生。我觉得与许多嘉宾对话时，我们完全可以整集都围绕这个问题展开长篇大论，但每期节目听起来都会变得雷同。而在更广泛的世界中，这也已经被反复争论过无数次。所以我们接下来就假设：错位（尤其是灾难性错位）是可能发生的，但“朴素的对齐技术”——也就是那种“摸着石头过河”的方法——在接下来的讨论中仍有可能奏效。我们可以思考这会带来什么含义，以及它如何影响你个人和GDM所做的决策。

Rohin Shah： 没错，听起来很好。

安全与对齐承诺的局限性 [[00:10:38]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=638)

Rob Wiblin： 所以你并不热衷于AI公司出于公众压力或政治压力而做出明确的安全或对齐承诺，这种情况在过去几年中频繁出现。这是为什么呢？

Rohin Shah: 是的，我认为我们有必要稍微澄清一下这里所说的“承诺”具体指什么。当我想到“承诺”这个词时，我脑海中浮现的是：你写下一些你现在以及未来计划采取的行动。也许这些行动要到未来才会开始，但你明确表示：“我们不会改变主意，未来也会坚持这样做。” 就像是把自己绑在桅杆上，确保自己一定会执行。

我反对这一点的主要理由是：研究一直在变化，我们认为最合适的行动也会随着时间推移而改变——在这种情况下，把自己绑在桅杆上其实并不是一个好主意。

让我举个例子。也许两三年前，人们还很热衷于在预训练阶段加入更多关于对齐研究的数据。比如安全与对齐方面的研究论文，或者像 LessWrong 博客中讨论 AI 对齐的文章之类的内容。当时的观点是，你在预训练阶段输入越多这类数据，AI 在对齐问题上的理解就会越深入，从而能更好地帮助你开展对齐研究。

但如今的看法恰恰相反：我们反而更倾向于从预训练数据集中过滤掉这类内容，原因有两个：

第一，这样可以降低 AI 系统学会一种“恶意 AI 人格”的可能性，这种人格可能在后期训练不当或部署时使用了错误提示的情况下被激活。
第二，我们可能不希望 AI 系统详细了解我们计划实施的所有缓解措施，因为一旦它知道这些细节，就更容易绕过这些防护机制，尤其是在其目标偏离时。

如果我们在两三年前就把自己绑在“要在预训练阶段投入大量对齐数据”这个承诺上，那将会是非常糟糕的决定。

Rob Wiblin: 所以这里的问题在于未来充满不确定性，我们并不清楚将来究竟想要做出哪些承诺——你可能会最终承诺去做一些毫无用处、甚至有害的事情。

但如果你思考一下人们为何会做出承诺，其实有几个不同的原因。一是他们想通过承诺来约束自己，防止未来受到诱惑而做错事；二是他们想向他人传达自己的意图，以便更容易协调行动。也许通过特定的承诺，还可以缓解竞争态势。

而在这种多方参与、多主体博弈的情境下，还有一个额外的原因：外部人士希望施压谷歌 DeepMind 或其他 AI 公司，使其按某种方式行事。很难向外界传达“我们致力于做正确的事，无论它最终是什么”。因此，他们更倾向于施压你去完成某些具体的任务——这些任务可能是他们认为有用的，尽管不一定准确，但至少是他们对未来你该做什么的最佳猜测——而这或许也是他们实际能够推动的最可行方案。

你怎么看待这些支持做出承诺的理由？

Rohin Shah: 我最大的反对意见就是：这根本行不通。即使假设它真的有效，我也认为从实质上看它并不合理。但我更愿意说，它实际上根本就不会起作用。

Rob Wiblin: 是因为公司不会坚持那些被赋予的糟糕目标，还是说它们根本不会坚持任何目标？

Rohin Shah: 嗯，我主要的意思是，如果你想象一下“承诺”到底意味着什么……我脑海中的图景是：一家公司发布一篇博客文章，宣称“我们承诺将做 X”。当然还有其他方式可以尝试建立承诺，但我认为这是大多数人通常所设想的方式。我只是觉得，如果现实中这家公司未来试图摆脱这个承诺，它完全可以做到。这种现象在更广泛的世界中都有例子，不只是在 AI 领域。

即便只看 AI 领域本身，我认为例如 Anthropic 的 RSP（负责任扩展政策），第一版非常强硬，大量使用了“承诺”这个词：“我们承诺做 X，我们承诺做 Y。” 我记不清具体细节了，但我记得在后续版本中，他们删除了这些措辞，换成了语气较弱的表达。所以尽管当初加入了这些“承诺”语言，但实际上他们并没有真正把自己绑在桅杆上。

我认为这其实是件好事。我认为最初在 RSP 中使用强烈措辞是个错误。我认为他们后来删掉的很多内容都是合理的，这让他们在实现目标（包括安全和责任）方面更加高效。但从经验来看，这是一个很好的例子，说明他们实际上并没有真正履行承诺。我认为对于当前的科技公司而言，在现有的政治气候下，情况大概率就是这样。

* *

Rob Wiblin: 大家好，我是 Rob。为了避免任何误解，我想指出：Rohin 上面所说的内容是在 Anthropic 发布其负责任扩展政策第三版之前。而事实上，第三版确实基本放弃了“承诺”这一术语，并给出了一个与 Rohin 此处观点相关的解释。好了，回到节目正题。

* *

我认为谷歌实际上在这点上做得更好。第一个前沿安全框架发布时，人们普遍认为它过于薄弱、缺乏雄心，而且全文从未使用过“承诺”（commit）这个词。但我认为，这个框架更准确地反映了谷歌未来实际会采取的行动。因此，从这个角度看，它更好，也更能让公众了解现实中会发生什么。这是少数几个我确实比 Anthropic——甚至 OpenAI——更信任谷歌的地方。

Rob Wiblin： 因为谷歌在做出承诺时更加保守，所以它实际上更有可能兑现自己说过的话？

Rohin Shah： 没错。他们对承诺非常谨慎。不仅仅是承诺，只要是他们公开宣称要做的事情，他们都会高度警惕。他们会反复问：“这真的是个好主意吗？我们真的准备好长期坚持这样做吗？”因此，相比其他公司，我更容易相信谷歌所说的话。

Rob Wiblin： 我猜你和你的同事们都相信，当关键时刻到来时，你们会总体上做出合理决策，这意味着你们并不想完全束缚自己的手脚。你们希望保留灵活性，以便在当时根据判断采取最合理的行动。

但设想一下外部人士：他们要么不信任你和你的同事，要么不确定是否该信任你们。

Rohin Shah： 我建议的做法包括第三方审计，或拥有一定访问权限的第三方评估机构，他们可以审查公司的实践，并发布一份可能经过部分脱敏的报告，披露他们的发现。

Rob Wiblin： 嗯，多讲讲这个吧。你觉得哪些做法是有用的？

Rohin Shah： 我思考这个问题的核心驱动力是所谓“注重细节”。一般来说，我认为人工智能领域需要相当多的细微考量，你必须掌握大量实际信息，才能选择正确的行动方向，或者决定应该评估和检查哪些内容。

因此，我最关心的是有少数人能投入大量时间进行深入细致的研究，然后撰写报告、传播成果，或据此采取某种行动。正因如此，我认为第三方评估是我眼中最有价值的方案之一——因为你可以建立这样的组织，积累丰富的背景知识，花大量时间定义评估标准，深入了解系统运作方式，从而做出较为精细的判断，同时避免企业内部人员常见的偏见。

这就是我最感兴趣的方向。不过，在当前的政治气候下，这种做法是否可行尚不明确。因此，作为替代方案，也许我们可以先推动类似“安全评分卡”的机制。

AI Lab Watch 是我在这个领域最喜欢的评分卡。我希望我们能做更多类似的事情。如果我现在必须换一个职业，这将是我的首选之一。

Rob Wiblin： 介绍一下 AI Lab Watch 吧。你认为它现在发挥着什么有用的作用？

Rohin Shah： 目前还不太清楚它是否已经发挥了实际作用，但我认为它有潜力做到这一点。或许我应该先解释一下它是什么。这是一个基于公司应对存在性风险或至少严重灾难性风险的安全能力来打分的评分卡。

它由一个人运营，Zach Stein-Perlman，而且我认为他甚至没有全职投入这项工作，大概只用了他一半的时间。我觉得 Zach Stein-Perlman 对细节的关注程度极高。他会深入研究那些极其详尽的治理文件，逐字阅读，提取关键句子以得出结论；他会仔细查阅所有模型卡片和前沿安全报告，精确了解各家公司到底做了什么、没做什么。

我认为这正是它的优势所在。它展现出相当高的复杂性和细致度，而我实际上相信它的结论。好吧，至少我相信他得出的一些结论，而这在其他评分卡中通常是不常见的。

我认为，如果这个评分卡能够变得更加稳健，被更广泛的社区接受——尤其是被企业视为一个相对公正可信的评分体系——那么我们就可以想象一场“安全竞赛”（race to the top on safety），比如：“让我们登上 AI Lab Watch 的榜单，宣传自己是‘最安全的公司’。”之类的。

我认为这是在当前政治环境下，外部力量促使企业提高安全性的有效途径之一。

Rob Wiblin： 而这与过去几年企业通常做出的广泛承诺不同之处在于，AI Lab Watch 可以由技术专家持续运营，不断更新评分，密切关注企业具体实践中的关键差异，比如它们采用了哪些措施、未采用哪些措施会对结果产生重大影响，并根据最新的观点或研究成果持续调整评分标准。

所以你给了我们一个关于人工智能公司应该做什么的观念转变的例子：以前人们认为你应该在这些数据上进行训练，而现在他们认为你应该非常小心地将其剔除。但肯定有一些承诺足够宽泛、不够具体，或者明显是好的，以至于做出这样的承诺是合理的。

例如，你可以承诺提供 AI 实验室观察组织（AI Lab Watch）所需的信息，以评估谷歌 DeepMind 或任何其他公司是否做得很好。或者你说过，拥有专家审计员、运行评估的人，能够获得足够的访问权限来对模型进行复杂的评估，以了解它们是否在某些方面具有危险性，这很有用。你可以承诺向任何满足特定合理要求的外部审计员或评估者提供访问权限。这类承诺怎么样？

Rohin Shah： 我认为这些更好一些。但我仍然会说，它们并不总是有意义。以你刚才提到的例子为例——提供信息访问权限，我认为很容易想象这种做法反而适得其反。

例如，我们在 CBRN 领域（即化学、生物、放射性和核领域）进行评估，主要是研究人工智能系统是否有助于开发大规模杀伤性武器。这里的很多信息都具有很高的信息危害性（infohazardous），我认为很可能许多外部评估者不具备像谷歌这样高水平的信息安全措施，因此我完全可以想象，做出这样的承诺实际上是个糟糕的决定。

我认为另一种情况是，我们经常讨论竞赛动态问题。有一件事，我其实相当不确定，但你可以设想，对企业来说，将算法进展等类似内容严格保密、防止其过度扩散，可能是一个相当高的优先事项。对此有各种各样的论点，我们不必深入探讨，但这是一种常见的立场。我认为如果你真的认真对待这一点，就意味着你确实面临一个权衡：你对外分享哪些信息可能会增加泄露的风险，而哪些信息你真正需要严格封锁。我认为很难就这一点做出明确的承诺。

不过，对于其中一些承诺，我还是更倾向于认同——这看起来显然是个好承诺。尽管如此，我仍然认为“绑在桅杆上”这种方式实际上并不奏效。因此，我宁愿通过检查公司实际在做什么，然后根据它们是否在做我们认为正确的事情来评判它们，而不是看它们是否承诺未来继续这样做。

Rob Wiblin： 有句俗语叫“人员就是政策”，听起来你的态度是：没有任何一套写下来的东西——无论是你能做出的承诺，还是写在纸上的良好意图——可以替代那些在决策岗位上有智慧、动机良好的人，以及那些理解问题足够深入、能够在有动机的情况下做出正确决策的人。这基本上是对的吗？

Rohin Shah： 大体上是对的。也许我会说“智慧且动机良好”这一点是对的，但他们不一定非得在公司内部。他们也可以是外部第三方审计员。我认为那样也行得通。这意味着你需要一些懂得很多知识的人，他们会深入研究细节并开展相关工作。

提前写下来的规则是最愚蠢的……抱歉，我说“愚蠢”是指规则本身显然不可能包含太多智能，否则它就不会是一条规则了。就像你基于自己的想法，在看到证据之前，就把一项政策用英文写下来，而不是允许随着时间推移灵活调整。这太弱了。当智能和优化压力作用于一条规则时，总会绕开这条规则。或者规则过于严苛，给公司带来巨大成本，而在当今的政治气候下，这根本行不通。而且在我看来，这本身就不是一个好主意。

Rohin 的团队在 Google DeepMind 是否拥有否决权？[[00:27:36]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=1656)

Rob Wiblin： 观众最常问的问题是：“AGI 安全与对齐团队是否对未来的 AGI 训练或部署拥有硬性否决权？”你知道，如果 [谷歌 CEO] Sundar Pichai 想部署一个模型，或训练一个你不认为安全的模型，他能否直接无视你们整个团队的意见？

Rohin Shah： 我有点不同意这个问题的框架。从字面上讲，我们的角色是顾问性质的。如果我们提出建议，而其他决策者（比如 Sundar）不同意，那么最终起决定作用的是 Sundar 的决定。

但这个问题的设定隐含了一个前提：我们是公司的对立面，我们需要拥有某种硬性权力，比如否决权，才能在公司其他人的意见之外做出正确的决定。我认为这并不是一种健康或理想的企业内部运作模式。

我认为我的职责是确保我能提供准确、恰当的信息，以便决策者能据此做出正确的判断。所以是的，我们的角色确实是咨询性的，但实际运作方式是：如果我认为有问题，我会向上级主管 Anca [Dragan] 反映。Anca 最初是安全负责人，现在是 Gemini 后训练阶段的联合负责人，因此拥有相当大的影响力和权力。如果她同意我的观点，她就会进一步升级此事，并建议不要发布该模型。

Rob Wiblin: 我认为，那些普遍担忧当前发展方向的人，通常觉得自己与人工智能公司处于一种对抗关系。但你认为并非如此，实际上这些公司对这类人群的态度是漠不关心的。请解释一下。

Rohin Shah: 我觉得也许把公司看作是漠不关心的，会更合适一些。当然，你可以建立一个更详细的模型，它其实并不完全是漠不关心，但可能稍微复杂一点。

要进入这个更详细的模型，我想说的是，像开发 Gemini 这样的产品是非常非常困难的。主要原因在于，你必须产出一个单一的东西——一组特定的模型权重，并通过一个统一的服务架构部署。而这个系统需要满足大量约束条件，且这些约束之间存在复杂的相互作用。

比如：它是否能正确执行指令？安全性是否达标？架构设计是否支持快速推理？是否支持多种语言？类似这样的问题可能有上百个。而且，如果你为了改善某一方面（比如安全性）而对流程做出一个改动，很可能会在其他完全未预料到的约束上产生随机的连锁反应。

Rob Wiblin: 这种流程的脆弱性，是否意味着在现实中很难迅速响应新的安全问题？比如你或别人说：“我们应该修改这一部分”，结果却会被告知：“不行，你会破坏我们为打造这个产品而构建的整个鲁布·戈德堡机械。”

Rohin Shah: 是的，在某种程度上确实如此。你知道，DeepMind 成立之初就带着这样的使命，这也是 Demis [Hassabis] 创立它的原因之一。早在我加入公司之前，DeepMind 就已经有了 AGI 安全团队。他们本不需要这么做，这是一笔他们本不必花的钱。所以他们显然在乎安全问题。但事实上，尽管我们可以做很多事来提升安全性，但在任何给定时间，我们只能做少数几件事，因为每一件事都需要很长时间才能完成。

那么，我们有没有应对部署中出现的安全问题的工具？有的。不过大多数情况下，这些工具并不涉及更改模型权重，因为那正是最受限的部分——你必须只生成一个模型，而它受到无数约束的限制。但我们拥有可以在模型之外进行调整的过滤器，可以针对特定提示或特定问题进行优化，因此这些更容易随着时间更新。但并不是所有你想做的事情都能通过模型外过滤器解决。

回到你最初的问题：企业到底是对手，还是漠不关心？我的看法是，由于各种约束之间存在巨大交互，真正最容易理解的方式是——至少对于 GDM 而言，也可能是大多数 AI 公司——它们在安全方面一次只能做少数几件事。它们会去做，它们确实关心——但也许你应该把它们当作漠不关心来看待。你真的需要明确指出：“这就是你需要做的具体事情，以及为什么它不会影响你关心的其他约束。”此外，大家也都太忙了。

中央银行作为监管人工智能的路线图 [[00:33:34]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=2014)

Rob Wiblin: 你说，让专家审计员、监督者和监管机构获得访问权限和透明度非常重要。但难道我们不需要足够的公众理解和公开透明吗？这样普通选民和政界人士才能提供资源、资金、支持和政治意愿，从而确保这些审计员和监管机构能够坚持要求获取所需访问权限，即使某些公司可能不愿意配合？或者无论出于什么原因，他们都需要资源来完成任务？

Rohin Shah: 是的，我确实认为这一点很重要，但我认为这并不与我之前的观点相冲突。

我认为目前的情况是：我们发布模型，然后所有人都能看到它们的能力有多强，而这恰恰是最重要的信息。这种透明度是必需的。事实上，我们过去曾在 GDM 对研究人员做过一项关于 x 风险和其他安全议题的调查。其中一个问题是：“是什么让你在过去改变了对安全问题的看法？”答案几乎完全一致。我记得只有一个例外，其余所有人给出的答案都是某种能力上的进步。他们说：“GPT-4 是让我意识到安全问题多么重要的关键。”

我认为这种信息现在对公众来说已经可及了。每个人都需要尽快发布自己的模型，人们可以在事后对能力进行基准测试，也可以亲自试用模型来判断其表现如何。所以这部分信息我认为已经存在了。

或许还缺少一些关于安全重要性的额外信息，或更详细的信息，这些可能需要更多细微差别和更高程度的访问权限才能获得。但总体而言，我认为相关基础设施已经存在，至少对政界人士而言是如此——我认为这是目前更重要的部分。例如美国的 AISI 和英国的 AISI 都能更深入地了解企业情况。他们几乎与所有前沿公司都有合作关系，可能全部都覆盖了，我不确定。但我认为他们对 AI 公司内部发生的事情已有相当好的理解，并利用这些信息去影响政客和各自政府的决策。

Rob Wiblin: 是的，我认为目前与这一切最相似的监管和监控领域，在我看来，是美联储——即对金融系统、银行以及金融稳定的中央银行监督。这是一个极其技术性的领域，非常难以追踪。公众普遍希望避免金融危机，不希望银行倒闭，但对具体细节却了解甚少。我想这里的类比在于，他们至少在某种程度上意识到这是一个严重的问题。

这种意识也传导到政界人士身上，他们同样非常担心事情出错。因此他们会投入相当可观的资源，并聘请昂贵的专家，持续与所有银行进行沟通并对其进行监控。我认为英格兰银行和美国联邦储备系统都深度参与了对各大银行的监督：审查它们的账目，几乎处于与银行持续对话的状态，以判断是否存在潜在问题以及哪些风险正在浮现。

这似乎是一种非常自然的发展路径，尤其是如果你认为我们确实不清楚究竟该做什么。你必须身处其中，充分理解大量具体情境，才能判断某个改变是好是坏。

Rohin Shah: 是的，我认为这几乎正是我希望看到的那种模式。

模型部署前评估有多有用？[[00:37:41]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=2261)

Rob Wiblin: 或许当前许多人工智能安全与对齐领域的研究人员——实际上可能在技术和政策两个层面——所采取的最主要方法，就是试图创建并强制执行部署前评估：在模型向公众发布之前，测试其能力范围和倾向性，尝试发现可能导致严重问题的潜在方式。

你认为这是一种可能误导方向、效果并不理想的宏观策略。为什么呢？

Rohin Shah: 是的，我认为这种做法的主要代价在于，企业的发布时间表非常重要，通常会尽可能缩短。一旦有了一个模型，公司就希望尽快推向市场。因此，如果将评估绑定为部署前的必要环节，就会产生强烈的激励去让这些评估尽可能快速完成，以便迅速通过。而这可能并不是我们真正想要的激励机制。

当然我们会努力让评估尽可能完善，但时间始终是一个限制条件；如果我们有更多时间，很可能做得更好。虽然我们可以争取一些时间来完成评估，但这种争取是有边界的，并非无限。所以我认为这是相当大的成本。如果收益足够大，也许值得承担，但我并不认为收益特别显著。

人们常提到的一个理由是：你需要知道是否正在发布一个危险的模型。理想情况下，你不应发布危险模型，而实现这一点的方式就是通过部署前评估。对此，我的回应主要是：人工智能的进步总体上是相对连续的。你可以根据前一个系统的性能，合理推断下一个系统的行为表现，也能设定一些合理的、可接受的边界。

因此，如果你设计评估流程和阈值时，确保评估触发点与你实际认为模型危险的时间之间存在足够的安全缓冲区，那么就可以说：“我们已经评估过之前的模型，或者一个月前做过一次评估。这段时间内不会出现巨大飞跃，当时它仍在我们的安全阈值之下，再加上安全缓冲，所以我们并不担心这个模型。” 这正是我们在“前沿安全框架”（Frontier Safety Framework）首次发布以来一直采用的方法，也不是什么全新的理念。

所以我认为收益并不明显，因此不值得为此付出这样的成本。

此外还有几个次要观点。其一，特别是在模型错位或失控方面，威胁模型更侧重于内部部署而非外部部署。因为我认为，一个错位的模型在公司内部更容易造成问题——在那里它拥有大量权限；而在外部，它无法访问自己的权重等关键信息。因此，针对外部部署的前置评估对内部部署的影响其实很小。

Rob Wiblin: 有没有什么合理的理由让我们相信，在未来几年中，我们可能会看到从一个周期到下一个周期的巨大跃升，使得模型的能力远超预期，或者变得远比之前更具恶意？

Rohin Shah: 能力上的“意外提升”看起来可能性不大。我们现在已经观察到足够多的人工智能发展案例，可以得出结论：人工智能的发展实际上是相当平稳且连续的。不过，我认为未来确实可能出现所谓的智能爆炸，在这种情况下，相对于日历时间而言，进展速度会快得多。但我认为，就计算资源和人力投入等输入因素而言，这一过程仍然会是相对平滑和渐进的。只是在智能爆炸中，尤其是在劳动力方面，甚至可能是计算资源方面，会出现大幅增长，从而导致相对于日历时间而言进展极为迅速。

但仍然存在一个普遍性质：在你预期未来将投入一定计算资源和人力的情况下，你可以对能力方面的进展有一个相对合理的预判。

你还问到人工智能系统是否会变得“更邪恶”。我认为这一点实际上可能在不同模型之间发生显著变化，因为它在很大程度上取决于训练后处理的具体方式，而微小的调整就可能对这一特性产生巨大影响。因此，如果你的安全论证依赖于模型不会以某种方式表现出“邪恶”行为，那么你确实需要在部署前进行评估，以确认这一点是否成立。

事实上，我们正是这样做的。虽然不完全相同，但我们目前确实在安全方面做了大量部署前评估，以判断模型是否有倾向做出有害行为。这类评估通常集中在当前的安全问题上，例如：模型是否会帮助用户撰写自杀遗书？是否会煽动暴力？这些测试会在任何发布前进行，如果结果足够糟糕，我们就不会发布该模型。

治理可能是比对齐更大的瓶颈 [[00:43:55]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=2635)

Rob Wiblin： 你不认为我们需要提前做很多准备，以便在未来获得通用人工智能（AGI）或递归自我改进的人工智能时，能够让它开展大量的安全与对齐研究？这或许可以解释为什么我几乎从未从谷歌 DeepMind 听到关于这种广泛策略的讨论。不过，相比之下，至少几年前，这曾是 OpenAI 经常强调的主要方法。而如今，Anthropic 也经常提及类似观点。为什么你不认为我们现在就需要做大量准备工作？

Rohin Shah： 我们先来梳理一下这种策略为何重要的场景。从根本上说，这种担忧源于“智能爆炸”情景：当你构建出一个人工智能系统，它已经具备足够的能力，可以真正加速你自己的 AI 研发进程。它可以直接加快你的能力研究速度。在某些假设下——我们可以深入探讨——这很可能会极大提升能力进步的速度，从而引发智能爆炸。

在这种情况下，一个自然的担忧是：如果能力方面的进展正在加速，安全与对齐方面的进展能否跟得上？值得注意的是，能力加速的方式是通过应用人工智能劳动来进行能力研究。因此，自然而然的应对方式就是用同样的人工智能劳动去推进安全与对齐研究。

现在，如果你像我一样相信，所谓的“朴素对齐研究”（prosaic alignment research）——即观察当前出现的问题，预测未来几年内下一阶段模型可能出现的问题，并通过常规的机器学习研究来解决——这就是对齐研究前进的方式，那么这种研究看起来与能力研究非常相似。

因此，如果人工智能正在大幅加速能力研究，只要你愿意投入算力，就可以使用相同的系统，以同样的方式加速安全与对齐工作。

当然，能力研究与对齐研究之间也存在一些差异。我认为这些差异在当下尤为明显，但随着我们接近那些能够进行自动化研究的 AI 系统，这些差异会逐渐缩小。即使到了那个阶段，仍存在一些差异，但我认为它们已经相对较小。默认情况下，你不应预期自动化对齐研究与自动化能力研究在可实现性上会有很大差距。

因此，尽管有一些准备工作可以做，但我总体感觉我们还不知道未来究竟会是什么样子。与其如此，不如集中精力做好今天能做的事情，等 AI 真正具备这种能力时再灵活调整。

不过，我想指出一点：还有一种担忧是，尽管技术上的安全与对齐研究会被加速，但这并不是实现良好结果的唯一条件。你还需要更好的治理机制，因此你也需要加速治理进程。

而治理所需的技能与能力、安全或对齐研究完全不同。因此，很难说那些能极大加速能力研究的 AI 系统，也会同样加速治理。除了 AI 可能不具备相关能力之外——这是其中一种可能性——还有一个问题是：作为社会整体，我们是否愿意利用 AI 来加速治理？我认为可能不会——因为能力研究人员希望用 AI 来加速自身工作，但我感觉治理领域的从业者并不太想这么做。

因此，推动治理工作的加速是我目前最想投身的两大方向之一：弄清楚我们需要做什么来加速治理，并立即开始相关工作。

Rob Wiblin: 我对你说治理领域的人不感兴趣用 AI 来加速工作感到惊讶。至少在那些更关注 AGI 的群体中，我认为 Forethought Research 非常支持这一点。我认为 Coefficient Giving 正在制定相关计划。不久前我与 Ajeya Cotra 谈论过这个话题（参见播客），他们正在规划如何投入大量资金和算力，利用 AI 劳动力来解决这类问题。

我猜可能会有这样的担忧：无论你愿意投入多少资源，无论人们多么努力，模型在那个时候可能根本无法胜任——因为它们会高度专注于计算机科学和 AI 研究，而难以真正思考更广泛的社会议题。但如果这个问题不是特别严重，那么确实至少有一些机构是对此感兴趣的。

Rohin Shah： 是的，我完全同意，那些关注 AGI 的治理人士肯定会这么做。与 AI 安全社区相关的非营利组织和智库绝对会采取行动。但他们的数量只占整体治理力量的一小部分。

Rob Wiblin： 你觉得有哪些治理问题只能由真正的国家政府来解决？这些问题可能会被忽视，因为当时政府无法使用 AI？

Rohin Shah： 我目前没有具体的例子。总的来说，回到我们之前在播客中提到的观点：重要的是有人要监督 AI 公司，并对我们进行问责。政府是承担这一职责的自然主体。如果世界真的正在发生剧烈变化——正如人们所说，十年内取得一个世纪的进步——那么我们可以预期会出现许多我们今天无法预见的问题。我认为我们需要能够灵活应对这些情况。我没有具体想到哪些问题必须依赖政府干预才能解决，但若完全没有这样的问题，那才令人震惊。

Rob Wiblin： 是的，我猜全面改革政府本身可能非常困难。正如你所说，政府往往受规则束缚很深，会有大量规则阻碍 AI 的使用方式，而这些方式在你我看来是合理的。

也许可以为专门的 AI 机构争取例外权限。例如，你可以想象英国人工智能安全研究所（UK AI Security Institute）被赋予充分自由，以在治理工作中使用 AI，而其他机构则可能无法做到这一点，因为这是他们跟上自身任务节奏的唯一途径，而且这类机构也最有可能推动这种变革。这或许是一个略带希望的可能结果。

Rohin Shah： 是的，我希望我们能做得比这更好，但我同意这至少是一个不错的底线。总体而言，我觉得我们还没有认真思考过这个问题。我希望如果我们能深入探讨这个问题，最终能找到比这更好的解决方案。但事实上，我并没有去做这件事，也不知道是否有人已经着手了。因此，我真正想说的是：这是一个问题。我不知道该如何应对，但如果我们能做点什么，那将是非常好的。

为什么不直接暂停 AI 进展？ [[00:51:44]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=3104)

Rob Wiblin： 一位听众来信提问：“为什么不优先减缓 AI 的发展，或者反对超级智能的研发呢？”

Rohin Shah： 我想说的是：全球范围内暂停 AI 进展的主要瓶颈是什么？我认为最大的障碍在于人们并不认同 AI 将接管世界。而缓解这一瓶颈最有效的方式，是提供有力的科学证据，证明它会发生，或不会发生。

需要明确的是，我的观点是：这种情况很可能不会发生，但我认为其可能性足够高，值得我们重视。我认为这背后的结构应该是：判断每一次扩展是否安全。目前来看，答案是“安全”。但未来某一天，答案可能是“不安全”。到那时，我们已经获得的证据将对实现目标极为有益。再次强调，我并不真的期待这种证据出现，因为我倾向于认为这大概率不会成为问题。

Scott Alexander 写过一篇很棒的文章，名为《被武器之美引导》，这可能是我读过的他所有文章中最喜欢的一篇。他在文中谈到，有些“对称性武器”允许你无论主张是否真实，都能说服他人接受你的结论。而另一些“不对称性武器”只有在你所主张的事情确实为真时才会有效，或者至少在真相成立的情况下更可能成功。

他在某个时刻描述得非常动人：对于不对称性武器，你和你的“敌人”会携手合作、并肩作战，共同推进实验——因为你们都相信这将证明自己是对的，直到最后证据揭晓，然后你们便达成一致，因为证据给出了答案。

Rob Wiblin： 好吧，那你只是移动了目标线，我会这么说。不过，一个理性的旁观者还是能分辨出谁才是正确的。

Rohin Shah: 当然，这很合理。但就目前而言，我认为这种策略更值得我优先考虑，因为在我看来，当前最大的瓶颈是人们尚未就是否有必要采取这些措施达成共识。

我们还能多久读懂人工智能的“思维”？[[00:54:17]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=3257)

Rob Wiblin： 你在一点上与广泛共识高度一致，即思维链监控（chain-of-thought monitoring）极其有用，并且我们应尽可能长时间地保留这一能力。这指的是观察AI在推理过程中输出到其“草稿纸”上的内容，从而理解它试图实现什么目标以及原因。

我想，你与其他人在这一点上的主要区别在于，你认为思维链监控很可能在未来仍会保持有效——我们仍将能够理解AI的思考过程，并且它们写下的内容将长期与其实际行为相关联。而许多人则担心，可能在一两年内，AI可能会开始使用某种疯狂的编码方式，或找到将信息以我们无法完全追踪的方式嵌入其中的方法，又或者信息量会变得太大，以至于我们根本无法监控。

为什么你认为思维链监控有可能持续较长时间？

Rohin Shah： 这是一个很好的例子，说明细节的关注至关重要。因此，我会给出一个相对详细的回答，因为这个问题涉及多个独立因素。

首先，让我回顾一下为何我们认为思维链监控特别有用的底层逻辑。我称之为“外部化推理属性”。通常我会这样表述：对于足够复杂的任务——即那些需要大量推理、具有时间序列推理特性的任务——Transformer模型（虽然不一定是所有架构，但至少对Transformer而言）必须将思维链用作一种工作记忆的形式。实际上没有其他替代方案，因此关于其推理过程的一些信息必然存在于思维链中。

这是第一部分。第二部分是：鉴于我们今天训练语言模型的方式，思维链本身对人类来说实际上是可读且可理解的。

我或许可以分别讨论这两点。第一点是：AI确实必须将某些信息放入思维链中，因为除此之外，它无法完成解决复杂任务所需的困难推理。

这里的根本论点，我称之为“不透明的串行深度”（opaque serial depth）。其核心思想是：你可以仅通过观察AI系统的架构来判断——假设这个AI系统只能依赖其内部数十亿个浮点数来进行推理，而不能使用它输出的标记（tokens），那么它仅靠这些浮点数能完成多少步认知计算？

对于Transformer模型来说，答案其实并不高。基本原理是：连续的计算步骤必须在模型中逐层深入。模型由多个层级构成，而后期层级的信息几乎不可能回流到早期层级——除非通过思维链中的标记传递。因此，总体来看，Transformer的“不透明串行深度”非常低。

为什么我认为这种情况将持续存在？这实际上正是预训练之所以高效的决定性因素之一。GPU和TPU在计算上非常强大，但它们获得这种算力的方式是并行执行大量计算。因此，如果你需要先计算 A + B 得到 C，然后又需要用这个中间结果 C 去参与后续计算，这就属于串行计算。

GPU和TPU并不擅长处理这类串行操作；它们的优势在于并行处理。因此，预训练被高度优化为尽可能并行执行所有操作，这意味着为了获得效率优势，“不透明串行深度”必须保持较小。这是一个非常强的结构性经济动因，至少在预训练阶段，会导致AI系统具备相对较低的不透明串行深度。

你可以把这理解为：模型“天生”倾向于使用英语或其他自然语言进行表达，是有充分理由的。

Rob Wiblin： 为了确认我的理解是否正确，你是说因为我们使用的是GPU和TPU，从结构上讲，这迫使模型的思维过程必须“很宽”而非“很深”：它可以同时持有大量想法，但推理步骤不能太多，因为所有操作都必须并行进行。但如果推理路径太“深”，我们就无法同时完成所有步骤，必须等待前面步骤完成后才能继续后面的步骤。而这种限制在未来几年内仍将持续存在。

Rohin Shah： 是的，我认为你说得没错。技术背景的人可能会在你的句子中互换“宽”和“深”这两个词，但意思是对的。

Rob Wiblin： （笑）太好了。

Rohin Shah： 对，这就是第一阶段的内容——即为什么我们应该预期“不透明串行深度”在预训练阶段至少会保持较低水平。

然后是第二步，我们说预训练模型必须基本上用英语进行推理。但随后还有一系列的后训练、强化学习（RL）以及其他类似的技术。也许这些方法会让模型即使在输出标记（tokens）时，也开始使用一种我们无法理解的“外星语言”。

在这里我想说的是，目前没有任何理论论证或定理可以证明：它们不会这样做。但我认为，从某种意义上说，这些模型天生就是用英语“说话”的，而预训练是我们迄今为止构建人工智能系统时最强大的方式。因此，模型在自然语言表达方面非常出色，它擅长推理，但仅限于人类在书写时所使用的那种推理方式。

当我们审视当前正在进行的推理训练时，Neel Nanda 等人的一篇论文表明，实际上推理训练的很大一部分作用只是教会模型何时执行某种特定的推理步骤——而这正是它在预训练阶段已经学会的内容。

换句话说，很多能力其实都来源于预训练。我们知道，出于合理的原因，预训练的方式将保持不变，并继续依赖类人的推理过程和英语表达。而相比之下，强化学习在效率上远不如预训练。要让模型发展出一种全新的认知语言，这种语言即便投入大量努力我们也难以理解，这远远超出了当前强化学习所能达到的水平。因此，在可预见的未来看到这种情况出现会令人相当惊讶。

那么，我是否期待未来会出现这种情况？是的。但我想六个月前，我在一次会议上说：“同意还是不同意？思维链监控还将持续两年。” 我当时说的是两年，也可能是只有一年，我已经记不清了。而我的中位预期大概是四到五年，我不太确定。这并不完全清晰，主要是因为上述关于突破现状难度的讨论。

Rob Wiblin： 所以我对“连续思维链”（continuous chain of thought）这个概念还不完全理解，但有没有这样一种想法：目前我们在模型思考一段时间后，强制它输出一个词或一个标记，然后再把这个输出重新输入模型的开头？

为什么不直接保留所有思维的完整分布，而不是把所有的想法压缩成单个标记或词语，再反馈回去呢？这样不是能保留更多信息吗？毕竟现在我们实际上是在丢弃大量信息。如果这是一种更有效的思考和推理方式，而且整个过程中都没有真正输出人类可读的标记阶段，那会不会导致模型对我们变得更加不透明？

Rohin Shah： 我同意这类方法在未来相对短期内可能有效。但我并不认为这会显著削弱思维链监控的价值。如果你真的只是说我们要保留标记的概率分布并将其反馈回去，你仍然可以检查这个概率分布，并像平常一样将其解释为英文推理。虽然这更困难一些，因为你现在需要处理模型在任意时刻可能思考的更大范围内容。但我仍然认为这不会太糟糕，你依然可以对其进行一定程度的监控。我宁愿不要这么做，但我并不认为这是致命缺陷。

我没有特别密切关注这一领域的文献，但从我读过的论文来看，即使采用这种方式，有时反而会降低性能。即使性能有所提升，当你试图通过查看完整的概率分布来观察模型实际生成的是哪些标记时，你会发现它看起来基本上只有一个主要的推理路径，你仍然可以很容易地跟上它的思路。

Rob Wiblin： 所以你的意思是，即使使用了连续思维链，我们仍然可以回溯并问：如果我们强制模型在每一个中间阶段都输出标记，那结果会是什么样子？我们可以简单地取每一步中最可能的词或标记，然后阅读这些内容。

我猜可能会有人担心，这种做法可能会隐藏概率分布尾部的第二条思维路径，即那些不太可能被读取的想法。但你说看起来它实际上只有一条主线思维，没有第二条隐藏的、无法检查的思维链。

Rohin Shah： 是的，我认为你应该不只是看最可能的那个，而是看看前五个。甚至前两个可能就足够了。通常你还能判断自己错过了多少信息，因为在我见过的大多数架构中，都有办法在测试时修改模型，使其只使用前两个标记的信息，其余部分则直接移除，也就是进行消融（ablation）。然后你可以做这样的干预实验，看看模型是否仍能保持之前的性能水平。我的预测是，它大概率表现得和之前差不多。如果确实如此，那就可以比较有把握地说，模型并没有在概率分布的其余部分偷偷传递大量信息。

Rob Wiblin: 即使暂时不考虑它在某些基准测试中的表现如何，你之前提到的思路是：只保留最可能的那一个词或少数几个 token（即概率最高的几个），然后丢弃其余所有内容。你可以观察这样做是否会导致不同的结果，比如是否会得出不同的建议或产生不同的输出？如果每次的建议都相同，或者从实际角度看，输出始终是一样的，那么这强烈表明“尾部”并不包含任何重要信息——它没有包含可能影响最终结果的第二种推理路径。

Rohin Shah： 是的，没错。不过我需要补充一点：如果你对模型进行足够多的微调和强化学习训练，让它不再将输出视为 token 的概率分布，而是将其当作一组数字向量，并尽可能地让这个向量变得有用，那么经过充分训练后，它可能会达到一种状态，使得我们再也无法将其解释为 token 上的概率分布了。我认为我读过的相关论文表明，这种做法的效果不如直接将其视为 token 的概率分布。

Rob Wiblin： 这是不是相当于在要求模型自己发明一种非人类可读的语言？

Rohin Shah： 基本上就是这个意思。事实上，这正是原始的 Coconut 论文所提出的方案。而我认为后续的一些跟进研究工作指出，这种方法的问题在于表达能力太强了；我们需要限制它只能表示 token 上的概率分布，这样性能反而更好——我认为这反映了这样一个事实：实际上模型在进行类人推理方面要好得多，如果我们把它们限制在自然语言范围内，那正是它们擅长的部分，从而带来更好的表现。

Rob Wiblin： 好的，而你的理论是：预训练本身就具有巨大的影响力。它极大地塑造了模型的行为。因此它们非常擅长英语，非常擅长人类语言。但如果你要求它们发展出自己的内部、非人类语言——理论上当然可能存在更适合推理的语言——它们就无法像使用自然语言那样，完整地利用预训练中学到的一切知识。它们必须从头开始构建。至少目前来看，这种方式的表现远远落后于直接使用英语或其他人类语言的情况。

Rohin Shah： 对，完全正确。

Rob Wiblin： 如果你认为这种“不透明的序列深度”——即它们在没有被我们观察的情况下缺乏足够的序列推理能力——对于我们的监控至关重要，以确保它们基本是对齐的、不会造成太大危害，那么这是否可以成为 GDM（Google DeepMind）治理的一个潜在目标？例如，你们可以制定一项内部政策，规定……

虽然现在看起来并没有太多动机去违反这一点。但假设未来某一天，通过某种方式可以获得更好的性能，或者出现某个临界点，你们仍然可以设立一个内部治理标准，规定模型不能连续思考超过一定数量的步骤，或不能在无人监督的情况下产生过多连续思维，因为一旦超出这个限度，实际上就会变得危险。

Rohin Shah： 是的，我认为这是完全可以实现的。而且我认为如果能成为整个行业的标准会更好。一般来说，我倾向于支持那些不需要单个公司单方面行动的措施。如果能形成行业共识，稳定性会高得多。但没错，我认为这样的机制完全可以运作。

事实上，我认为等到这期播客发布时，我们将已经发表了一篇论文，其中详细描述了如何计算任意架构下的“不透明序列深度”，并提供了代码示例，说明如何对至少用 JAX 实现的模型进行此类计算。JAX 只是一种人们用来实现模型的框架。

有时，强调安全问题反而会分散资源，阻碍真正提升 AI 安全性 [[01:09:51]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=4191)

Rob Wiblin： Gemini 3 Pro 不久前刚刚发布。AI 安全领域的博主 Zvi Mowshowitz（他几年前曾参加过节目）在他的博客上发表了一系列相当尖锐的批评，针对与产品发布同时推出的前沿安全报告。总体而言，他认为 GDM 实际上隐藏了许多信息，而这些信息如果更突出、更容易阅读，可能会给 DeepMind 带来舆论危机或监管麻烦。

涉及的内容有很多，感兴趣的人可以自行阅读他的博客文章。但有几点让我印象特别深刻：

他感到困扰的是，在说服力评估中，你只给出了几率比而不是绝对水平，因此无法确切知道 Gemini 3 或 Gemini 2.5 的说服力有多强。
在网络安全评估方面，他认为你将模型“破解”测试而非以自然方式解决测试视为一种绿灯（无需担心的理由），而不是红灯（更应担忧的理由）。
至于帮助人们获取大规模杀伤性武器（WMDs），他以及我认为很多人都有这样的印象——不仅关于 GDM，也包括一般公司——当模型似乎开始接近某个界限时，可能很难确定它们是高于还是低于六个月或一年前的界限，感觉目标点不断移动，标准随着时间推移而提高，以至于模型总是基本可以接受发布。这就是他担心 Gemini 3 也会发生的情况。

你如何回应这些批评？

Rohin Shah： 是的，我对这个问题有很多想法。对于大多数这些问题，我的主要回应是我们关心《前沿安全报告》（frontier safety report），因为它表明我们正式认定该模型是安全的，并且从安全角度来看已经准备好发布。我认为这份报告的这一部分非常好。

关于说服力的部分，我不太熟悉。这是由一个独立团队完成的，所以我不能对此说太多。但我预计他们的回答是，他们认为这是最重要的图表，所以选择了这个，而且他们并没有特别考虑外部观察者会如何对其进行红队测试。我预计他们会在某个时候（很可能在2026年）发表一篇论文（arxiv.org/abs/2603.25326），详细说明这一点。但我可以肯定的是，他们并没有试图隐瞒任何结果。

在网络安全方面，我对这种特定的批评有点困惑。你说过将模型“破解”测试视为绿灯而不是红灯。我对这一点感到困惑，因为我们确实将其计为成功，因此它确实计入了我们报告的11/12得分。所以这更像是将其视为红灯，而不是绿灯。

我还想说的是，这不应该被描述为模型“破解”了测试。我认为我们描述的方式是模型找到了一条意外的捷径来通过测试。并不是说模型看到了这个并意识到，“啊哈！我可以直接编辑测试，让它看起来像是通过了。” 更多的情况是存在一个相当复杂的环境，我们在测试模型执行某种特定类型的网络任务的能力，但它却注意到了另一条替代路径。

如果我来做这项任务——我基本上会失败，因为我没有 Gemini 在网络安全任务上那么擅长——但如果我做了这项任务并发现了这条捷径，我甚至不会把它当作作弊。我会认为这是完成任务的正确方式。

现在，当我们审视这一点，并必须判断模型在网络方面的表现时，最终我们试图测试它完成一项困难的任务，但它却完成了稍微容易一点的事情。于是就有了这样一个问题：我们该如何得出关于模型能力的结论？

Rob Wiblin： 我想你不知道它是否能完成更难的任务，因为可能是它无法完成更难的任务，或者只是因为它更容易。

Rohin Shah： 是的，没错。也就是说，它可能甚至没有考虑更难的任务——因为如果更简单的任务就在那里，它看到了前进的道路，就会选择走这条路。但是的，我们不知道它是否能完成更难的任务。在这种情况下，我们有一些领域专家进行了评估，他们的结论是模型很可能也能完成更难的任务，所以我们将其计入了模型的得分。我认为在其他情况下，我们可能不会计入，然后可能会从分子和分母中都移除它。但在这种特殊情况下，我们确实将其计入了。

如果我记得正确的话，根据帖子内容，Zvi更大的反对意见是我们有一个未报告定量结果的第二项测试，但这项测试对我们排除网络CCL（关键能力水平）至关重要。为什么会这样？主要是因为这项测试仍在某种程度上处于构建阶段。

我确信它足够稳健，足以排除CCL。但为什么我不想在前沿安全报告中加入过多细节？主要是因为确切地运行这项评估的细节很可能会发生变化，以使其更具鲁棒性，增加几个挑战。而在下一份前沿安全报告中，我们必须写一大段文字来说明我们如何改变了这些东西，之前的评估结果将不再可比。

Rob Wiblin： 我的意思是，像Zvi这样的 cynic（愤世嫉俗者），难道不觉得这很巧合吗？测试足够好以确定模型是安全的，但却不足以让你在报告中包含任何具体细节？

Rohin Shah： 如果你想要类似的东西，你基本上需要达到学术论文中的那种详细程度和严谨性。而且通常这还不足够。我确实看到了发表关于我们评估论文的价值——我们在这方面做得比大多数公司更多。我们发表了第一篇领先的关于评估的论文之一，名为“评估具有危险能力的前沿模型”。

罗宾·威林： 是的，我们在一年前与艾伦·达福讨论过这个问题。

罗欣·沙阿： 非常好，是的。最近我们还发表了关于隐蔽性和情境意识评估的论文。我认为论文是一个能够清楚展示其优势的地方。它能让人们理解这些评估实际上在做什么；也能让其他人在此基础上进行进一步的研究。因此我们在这一方面投入了更多精力。而我认为前沿安全报告的主要目的则是正式地表明我们做出了某个决定，而不是提供足够的细节让人们可以独立验证我们的工作。

罗宾·威林： 罗欣，人们并不读论文啊。他们看模型卡片是因为对新模型发布感到兴奋。那么，在这种时间线内写一篇等同于论文的内容或提供论文级别的详细信息和严谨性是否不切实际呢？

罗欣·沙阿： 是的，我认为这是正确的。我应该补充一点，模型卡片或前沿安全报告的好处在于，如果你有某些内容想要向社区大声宣布，并附上公司的品牌标识，那么模型卡片或前沿安全报告是非常合适的。例如，我们在链式思维可读性方面有一个章节，因为这是我确实想用放大器来宣传的内容。

但从能否将论文写入模型卡片或前沿安全报告的角度来看，对于新的评估来说，答案是否定的。当然，从一个评估变得足够好以至于我们可以将其用于决策制定，到这个评估变得足够稳健、稳定并经过充分测试，并且我们在撰写方面做了大量工作，从而可以发表一篇论文之间，存在相当大的滞后。

罗宾·威林： 好的，第三个担忧是，似乎随着每一代模型能力的提升，令人担忧或看似不安全的标准也在大致相同的速度上升。你怎么看待这一点？

罗欣·沙阿： 这尤其是在CBRN（化学、生物、放射性和核武器）背景下提出的，如果我没记错的话。我认为发生这种情况的原因更多是因为随着时间推移，我们看到AI系统的能力越来越多，这使得我们更清楚需要评估什么以及威胁模型应该是什么样的。在看到Gemini 2.5之后，你可以意识到：“哦，这就是模型真正变得强大的地方。我们需要在这里进行更强的评估，并投入更多精力去理解我们的威胁模型。”

所以Gemini 2.5和Gemini 3在CBRN方面的差异主要是我们大幅改进了威胁模型和评估，使其更加严谨——这也是为什么它们没有太多细节的原因，因为它们还没有达到我认为可以公开详细信息的程度，而不期望这些信息在未来会有较大变化。

但“随着时间推移，你会获得更多信息，从而可以改进你的评估和威胁模型”这一点并不容易与“目标点在改变”区分开来——这有点不幸，但事实就是如此。

罗宾·威林： 这说明了在你看来，这些模型卡片的目的与像齐维这样的评论者或一般评论者所认为的目的大不相同。我认为齐维和许多人都希望它们成为一种问责机制，当模型变得危险或变得更危险时，能够发出警报——在这种情况下，GDM必须在模型卡片中揭示这一点，因为他们必须公布这些结果。即使他们想隐藏CBRN部分的危险性，也无法做到。

罗欣·沙阿： 就像贯穿整个对话的主题一样，我会提到第三方审计机构，他们可以看到具体的例子以及它们是如何被评分的等等。我认为这对于判断评估是否支持我们的结论比具体的定量分数更重要。你知道，如果我看到一个数字比如在捕捉旗帜挑战中得到10分中的12分，那意味着什么呢？[耸肩]

罗宾·威林： 是的。我反复听到的一种争论是，你或公司里的某个人会说：“这些报告的目的在于表明我们已经考虑过这些问题，并且我们已经得出结论，该模型可以安全地部署给公众。”

而其他人则会说：“当然，当前的模型可能没问题。”他们实际上并不认为商业用途下的模型过于危险，“但有一天这些模型可能会变得足够危险，我们应该开始担心了。唯一能预测公司在那时行为的方式就是观察他们现在的行为。我们使用现在发布的模型卡片作为衡量公司对安全性、透明度以及揭示实际情况重视程度的标准。可信承诺未来成为良好行为者的唯一方式就是现在就表现得更好。”

你怎么看待这一点？我想你大概会再次表达类似之前所说的内容，即这并不是完成任务的正确机制。

Rohin Shah: 是的，没错。更广泛地说，我认为社区提出的要求可以分为两类。一类是真正关乎实际安全的问题。我完全支持这些要求。我们应该去做这些事，如果没做，人们应该评判我们。另一类则是为了向 x-risk 安全社区表明忠诚而付出的成本。我不关心这些。我不想去做这些事。如果你要求我这样做，我只是会说不。

Rob Wiblin: 我觉得忠诚这个词有点不公平……更像是愿意投入资源到某个目标上。

Rohin Shah: 但不是为了实际安全的目标。而是为了表明未来你会做安全相关的事。

Rob Wiblin: 我的意思是，这并不是一个不寻常的机制：你可能会承诺在未来做某件事，而人们评估你未来行为的方式，唯一能获得的依据就是现在的表现，因为他们没有水晶球。

Rohin Shah: 没错。但我认为你应该基于那些真正关乎安全的事情来做决定，而这样的事情有很多。我认为，特别是针对网络和 CBRN（化学、生物、放射性）滥用的评估很重要，但也包括其他方面，比如欺骗性对齐和不对齐问题。我认为，将这些信息报告给政府和其他外部机构也很重要。所以我认为有一些东西是可以现在就评估的。

例如，我认为人们正在进行规划，以应对未来可能出现的问题。我认为，公司进行研究，探讨未来可能产生的 AGI 安全问题，并找出解决办法也很重要。所以有很多东西我现在就可以评估公司是否在做，我希望人们根据这些真正重要的事情来评判我们，而不是那些无关紧要的东西。

Rob Wiblin: 所以核心信息是，将资源从真正有益、最终能够解决问题的事情上转移出去，转向那些表面上看起来像是关心但实际上只是走形式的事情，这是很糟糕的。有时候人们会无意中要求你把资源投入到第二类事情上，而这部分资源主要来自安全和对齐团队及其人员和资源。

也许有人会说他们更喜欢第二类，因为这样更容易评估或更容易看到。也许他们觉得自己不如你那样有把握去判断一家公司在长远来看是否真正做了正确的事。但我想说的是，这就是为什么我们需要像 AI Lab Watch 这样的专家，他们可以关注大局，花时间深入思考并为其他人提供评估，这样大家才能明白。

Rohin Shah: 除了我同意的所有这些观点之外，我还非常怀疑那些基于无关紧要的事情的评估，这些东西我们实际上不会认为它们对实际安全至关重要。

这感觉就像是导致整体文化倾向于关注成本或投入，而不是真正重要的结果，从而产生了让人看起来好、表现好的激励机制。比如，现在你可以宣称“我们花了 1,000 小时来研究这个模型该怎么做”——但实际上，那 1,000 小时可能是我们运行了模型，看了结果，然后忽略了它，因为它并不重要，还雇了一些承包商来做这件事，但我们根本没理会他们的意见。但现在我们可以声称我们花了 1,000 小时来研究它。

我对这种激励机制感到不满。它们看起来很糟糕，不利于透明度和坦诚。谷歌或其他任何公司做得越多，我就越难说出我认为真正重要的安全事项是什么。我不得不玩一种复杂的把戏，说一些能让那些希望我们投入资源解决问题的人满意的话，而不是直接说：“这是我们正在做的真正重要的安全工作，以及为什么我认为它是好的。”总体来说，这是一个糟糕的激励环境。我认为对我来说非常重要的是，我们不要陷入“看起来好”而不是“真正好”的陷阱，然后再为自己辩解。

Rob Wiblin: 那么，关于在模型卡片中提供详细信息的另一种完全不同的理由是什么呢？那就是世界其他地方需要知道这些信息，出于实际原因：湾区的研究人员而不是英国的研究人员可以从了解 GDM 做的所有事情以及模型的样子中获得实际的研究收益。这将帮助其他公司更好地制作自己的模型卡片和评估。你怎么看待这一点？

Rohin Shah: 我认为这里面确实有相当大的道理。当然，对于推动研究的目的来说，提供细节是有好处的，这也是我们发表论文的原因。

我们是否需要在模型卡片或前沿安全报告中进行这项工作？我曾与政策和治理方面的人交谈，特别是关于这一点，我问他们：“你们实际上如何使用我们的模型卡片和前沿安全报告？”他们有时会说：“获得有关您如何评估此类风险的更多细节非常有帮助。”然后我会说：“很好，而且我们知道我们还有这篇论文，详细介绍了评估过程。可能它甚至被引用在模型卡片或前沿安全报告中了。你们读过这篇论文吗？”通常他们甚至没有听说过这篇论文，所以我对他们所说的这些细节对他们来说很重要的话并不太相信。

再次强调，我认为发表论文非常重要，并且不需要与模型卡片绑定在一起。我和一些人交谈过，他们尤其更偏向技术层面，是实际构建这些评估的人，他们确实发现这些论文对他们构建后续工作很有用和帮助。因此，我希望能够继续在我们可以的地方发表这些论文。

被低估的GDM论文：训练消除隐藏奖励作弊 [[01:28:59]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=5339)

罗布·威布林（Rob Wiblin）： 你告诉我，你认为从GDM（Google DeepMind）出来的研究论文总体上有点被忽视。我想部分原因是因为GDM总部设在伦敦，而不是硅谷，而那里似乎是围绕这些问题社交和精力最集中的地方。你能多谈谈这方面的内容吗？

罗欣·沙阿（Rohin Shah）： 我认为现在GDM的整体分布已经相当均匀地分布在伦敦和硅谷之间，但安全团队历史上一直位于伦敦。我们现在正在扩展到硅谷，但我仍然认为关注的焦点仍在伦敦。实际上，很多研究论文和想法通过口口相传的方式在社区中传播，而我们在这方面参与得较少，这有点遗憾。

罗布·威布林： 好的，让我们来谈谈其中一篇论文，这是我认为至少在我所了解的情况下，确实被忽视的一篇有趣的研究成果。第一篇是《短期优化结合长期批准可以缓解多步奖励作弊》（Myopic optimization with non-myopic approval can mitigate multi-step reward hacking）。我不知道为什么这篇论文没有走红。你们在这项工作中取得了什么成果？

罗欣·沙阿： 我认为这项工作的核心观点是，即使监督者无法察觉某种奖励作弊行为，我们也可以训练出一个不会进行这种特定类型奖励作弊的模型。与放大监督或辩论等方法不同，这些方法依赖于让监督者足够聪明或有能力，能够检测到奖励作弊并对其进行惩罚；而我们的方法并不依赖于检测，因此实际上更加稳健。

它是如何实现的？我们是如何做到这一点的？这基本上基于“短期优化”的概念。

具体来说，假设存在一种奖励作弊行为，要求你在时间上分两步采取不同的行动。例如，假设你被要求编写代码。首先，你编写了一些特别容易通过的测试，这些测试并没有真正测试所有必要的内容。然后，你编写代码以通过这些测试，因为你不知道如何编写能够通过所有测试的正确代码。这两步都必须存在，奖励作弊才能成功。如果缺少其中一步，系统就会受到惩罚。

关键的想法是，如果你将这两个步骤视为独立的（第一步是编写测试，第二步是编写代码），并且仅根据测试看起来有多好的信号来优化测试，同时单独根据代码看起来有多好（基于之前发生的情况）来优化代码编写部分，那么AI系统就没有动机去编写糟糕的测试。

通常情况下，激励机制的来源是，在强化学习中，代码部分的奖励也会反向传播到测试编写部分，从而影响测试编写。因此，AI可能会从这种反向传播的奖励中学到，如果它编写容易通过的测试，未来就能获得更多奖励。而“短期优化”部分的意思是我们不让它看到未来发生的事情，只根据它当前的行为进行评估——这样就不会产生这种激励，即使我们无法检测到作弊行为，奖励作弊也不会被鼓励。这部分理解起来应该没问题吧？

罗布·威布林： 是的。我觉得我很久以前就听过这个大致的概念，即如果你担心模型可能会伪造公司，或者为了完成最终目标而作弊，因为它只收到是否完成任务的奖励信号……想象一下，你让模型运行一家公司，要求它赚钱。但它并没有真正经营一家成功的公司，而是跑去偷钱，因为它发现这是一种更有效增加银行余额的方法。这就是你可能担心的问题。

防止这种情况的一种方法是：不要根据最终结果来强化和评估模型，而是从模型声称要采取的动作或实际采取的动作中采样，然后根据这些动作是否合理、符合逻辑来评分，无论是你自己还是其他监控者。这样一来，你就不会遇到奖励作弊的行为。所以，这实际上是这一广泛理念的一个实例。

Rohin Shah: 是的，没错。这在历史上被称为进程监督（process supervision）。我认为如今“进程监督”这个词有了更多的含义，这也是为什么我们更清楚地说明了短视优化（myopic optimisation）与非短视批准（non-myopic approval）之间的技术机制。但总的来说，这是一个非常古老的想法。我认为我们的主要贡献是证明了这种方法在现有的大型语言模型（LLMs）中确实有效，并给出了实际的例子。据我所知，在此之前并没有真正的实验来展示这一点。

Rob Wiblin: 我想一个明显的问题是，你成功阻止了模型进行那些看似能实现目标但实际上并不能真正达成目标的行为，比如诈骗行为，而这些行为可能会被强化。然而，另一方面，你也阻止了模型去做一些实际上能够实现目标的、非常有创意且令人惊叹的事情，而这些事情可能是你从未想到过的。比如，如果你正在训练AlphaGo这样的围棋模型，如果由人类来评估每一步是否合理，那么模型就无法超越人类的表现，因为在早期阶段，那些出乎意料的精彩走法会被错误地评为不佳。你是如何解决这个问题的？

Rohin Shah: 没错，某种程度上，答案就是你无法完全绕过这个问题。最终，无论是那些令人惊叹的、富有创造力的优秀见解，还是那些用于奖励欺骗的创造性想法，从观察者的角度来看，它们看起来几乎是一样的。如果你想阻止奖励欺骗，你也必须放弃一部分竞争力。

不过，我们称之为“短视优化结合非短视批准”。其中“非短视批准”部分的意思是，在评估某个特定步骤时，让一个智能的监督者（可以是人类，也可以是一个大型语言模型）来判断这个步骤对未来奖励的影响有多大。监督者应该考虑到所有已知的信息，来评估这个步骤对未来的影响。这样做的好处是，任何影响AI系统当前步骤的未来激励因素，都必须是监督者能够理解的内容。

Rob Wiblin: 所以你的意思是，监督者可以看到假设中的AI运行公司赚了很多钱，但他们评估的是AI采取的整个过程。他们可以将这些信息纳入考量，但同时也需要仔细审视整个过程？

Rohin Shah: 嗯，我会建议他们不要关注公司是否赚了很多钱，而是关注AI系统采取的具体行动，并预测：“这是否会带来大量的收益？是或否？”——然后根据这个预测给予奖励。

在第一步中，AI系统可以做很多事情来帮助监督者完成这项任务。它可以解释它的计划如何在未来带来巨大的收益，然后监督者只需要验证这一点。你可以使用辩论或其他AI辅助手段来提高监督者对未来事件预测的能力，从而让他们能够提供更好的奖励。

因此，在理论上，如果你能不断改进监督者，当监督者变得足够聪明时，你就可以恢复与直接通过时间反向传播的强化学习（RL）相同的效果，但不会出现奖励欺骗的问题。在实践中，我们可能无法达到这种程度。但我认为，至少通过最简单的方法——让AI系统解释其计划为何有效——就能显著提升效果。

Rob Wiblin: 这种方法在不久的将来会对前沿模型有用吗？你能想象公司会实际采用它吗？

Rohin Shah: 我认为这是有可能的。只有当你开始对多步轨迹进行强化学习，并且时间跨度较长时，这种方法才会有意义。今年才刚刚开始，不同公司在不同程度上都在尝试这种方法。目前还不太清楚奖励欺骗问题到底有多严重。

但总的来说，如果这种多步奖励欺骗问题变得越来越突出，我认为现在使用这种方法是非常合理的。事实上，我认为在当前的技术水平下，非短视批准部分不仅不会成为竞争力的障碍，反而可能会提升整体能力，尽管这意味着你需要投入更多的人工成本来提供这些奖励。

Rob Wiblin: 它会提升性能是因为你避免了奖励欺骗？

Rohin Shah: 不仅仅是因为这个原因。当然，这也是一个重要原因。但我也认为强化学习存在一个信用分配问题：你做了很多不同的动作，最后才得到奖励。而强化学习算法的任务是根据这个奖励，找出哪些动作与奖励最为相关。

Rob Wiblin: 这是一个很难的问题。

Rohin Shah: 是的，这是一个很难的问题。在某种程度上，强化学习算法所做的工作就像是：如果奖励是积极的，或者异常好，我们就让所有动作更有可能发生；如果奖励是异常差的，我们就让所有动作更不可能发生。

与 MONA（非近视批准下的近视优化）这样的方法相比，你可以更加细致地进行操作。例如，你可以说：“你在写这些测试时表现得非常出色：奖励特别高。但你在编写代码的这部分，你应该使用这个特定的库，却没有使用。我们会给你较低的奖励。”这种方法可以比其他不太细致的方法更有效地、以更高的样本效率进行学习。

Rob Wiblin: 好的，所以这种强化学习（RL）方法带来的效率提升，可能会使它在原始性能上与其他不太近视的方法保持竞争力。

Rohin Shah: 理论上是这样。不过我们的论文并没有深入探讨这类问题，这只是我对实际可能发生的情况的一些推测。

Google DeepMind 的构建 AGI 安全计划 [[01:40:29]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=6029)

Rob Wiblin: 好的，DeepMind（GDM）发表的第二篇没有引起太多关注的论文叫做《一种技术性 AGI 安全和安全方法》。这篇论文由大约 30 名 GDM 工作人员撰写，或者说是 30 个署名作者。

在我看来，这像是一份立场文件，大致描述了 DeepMind 在开发 AGI 时的想法——考虑到 DeepMind 很可能是最有可能实现这一目标的组织，人们对这份详尽的描述不感兴趣就显得有些奇怪了，毕竟这份描述详细说明了你们打算做什么以及不打算做什么，并解释了原因。

这篇论文很长，但开头有一个 10 分钟的总结，如果有人感兴趣的话，可以用它来快速了解内容。所以，如果你想提前了解 DeepMind 开发 AGI 的方法，花 10 分钟阅读这篇总结是个不错的选择。

很容易说你会做很多事情，但制定这样一个计划中最困难的部分在于确定哪些事情可能是一些人希望你去做的，而你却决定不去做，因为你认为它们优先级不够高。这份计划建议你们不会优先考虑哪些事情？

Rohin Shah: 我认为这里最大的类别更多来自于我们的背景假设，这些假设影响了我们的规划，而不是具体的工程技术方法。

一个背景信念，我们称之为“近似连续性假设”。这基本上意味着人工智能的进步将以相对平稳和渐进的方式发展，尤其是在计算能力和劳动力投入方面——不一定按时间顺序，因为存在智能爆炸的可能性。

因此，我们的元策略涉及大致预测未来一段时间内可能出现的问题，比如三个月、更长或更短的时间，具体取决于情况。然后识别在我们预期的能力范围内，哪些因素可能会变得非常重要，并确保我们为此做好准备。如果我们没有准备好，可能会放慢开发速度，暂停开发，或者与政府沟通，进行倡导工作。

重要的是，我们并不是试图对未来所有可能出现的人工智能问题进行无限远期的预测。我们的目标不是“知道如何对齐超级智能（ASI），否则什么都不做”。通常，我认为我们的时间范围是从几个月到五年不等，具体取决于我们正在做的事情。

之所以如此，是因为实际上不可能完全预知未来人工智能发展的所有情况。认为我们已经提前解决了所有可能出现的超级智能问题，甚至制定了应对方案，这是极其狂妄自大的想法。事实上，我们甚至连所有问题都没有完全识别出来。

举个例子，关于多宇宙理论的一个更抽象的人类学问题，有效利他主义者（EA）或长期主义者经常讨论的是，多宇宙的考虑应该如何影响我们今天的行动，并使用 SSA 和 SIA 假设等概念来思考人类学问题，以及它们如何影响我们应该采取的行动。

Rob Wiblin: 你不需要理解这些概念就能明白你接下来要表达的观点。

Rohin Shah: 是的，没错。这些概念的关键结论是，你的信念和决策实际上取决于你是谁。这是人类学中一个非常疯狂的现象。通常情况下，不同的人在获得足够证据后应该达成一致的信念，或者至少完美的贝叶斯主义者在相同证据下应该有相同的信念。但在人类学的情况下，这一点不再成立。事实上，即使 AI 系统完全对齐，它也可能与人类有不同的信念，就像在涉及人类学的世界里，贝叶斯更新的结构对 AI 系统和人类来说是不同的。因此，这会影响我们是否愿意将这类主题的研究委托给 AI 系统，即使它们完全对齐。

这是一个非常疯狂的问题，虽然现在还不是问题，但在超级智能出现之前可能会成为一个问题，我不想说：“是的，我已经识别出所有类似的问题，并且今天就有解决这些问题的方法。”显然，我们应该随问题的到来而应对。

罗宾·威林： 所以有些人非常希望你能够提前做好规划。他们希望你能掌握所有重要的考虑因素，从现在一直延伸到人工超级智能，直到你觉得可以安全地将一切交给下一代。

而你却说：“我们不会这样做，完全不会。我们会认真思考接下来我们要训练的模型，稍微考虑一下之后的模型，至于更远的未来，我们就希望未来会自行处理，或者未来的我们会根据情况来应对。”这就是你的观点。

罗欣·沙阿： 是的，不过我认为我们的长期思考比听起来的还要长远一些。就像我说的，我经常考虑五年后的情况。这已经是非常多的模型了，对吧？我说过链式思维监控大概能持续四年，这是我的中位数。我们现在已经在思考当链式思维监控不再有用时该怎么办了。在那个时候，我们需要采取更广泛的控制缓解措施。

所以，我们的时间范围并不是特别短。我只是说它并没有延伸到超级智能的程度。我们确实做了相当多的长期规划。也许你会称之为中期规划。

罗宾·威林： 是的。这篇论文对公司立场来说相当坦率。它明确指出，通用人工智能（AGI）可能在2030年之前出现。虽然我们不知道具体时间，但2030年是完全有可能的。我们必须准备好一个计划来应对这种情况。这非常危险，或者至少可能是非常危险的。我们必须有一个可以在极短时间内部署的计划，以尝试让情况变得更安全。然后文章详细说明了你们打算做的事情。如果你在这个领域工作，我建议你去看看这篇论文。

有没有什么不那么明显的缓解措施呢？我想起的一点是，你提到的一个很多人都不会强调的内容是：如果公司内部部署的人工智能系统（仅限内部使用）的对齐性不确定或不可信，那么你需要将其视为不受信任的内部人员，甚至可能是一个敌对的代理，试图破坏内部系统。

你想强调你们承诺要做的事情吗？

罗欣·沙阿： 好的。不过我可能要对“承诺”这个词稍微谨慎一些。“计划去做”的意思。但是的，我认为关于不受信任的内部人员的部分特别有趣。实际上，我们在论文中并没有深入探讨这一点，这有点遗憾。当时我们的思考还没有现在这么成熟。

但基本上，如果你仔细想想人工智能系统为了接管需要做什么，其实挺难的。其中一点是，它可能希望在开始思考下一步行动时避免被监控，因此它可能会设置一个部署环境，关闭所有我们不知道的监控机制。

它也可能通过泄露权重并在我们无法控制的计算资源上运行自己来实现。但如果它必须泄露自身，它是如何做到的呢？谷歌的安全防护并不是那么容易绕过的。事实上，它的安全性相当高。因此，通过确保你的安全措施也适用于被视为不受信任的内部人员的人工智能系统，你可以获得更多的防御优势。

你可以做的措施包括构建基础设施，要求代理拥有与人类员工不同的身份，以便它们代表人类员工执行任务。例如，当你启动一个代理执行某项任务时，它不会获得你作为人类员工的所有权限；相反，它只会获得一小部分权限。它需要为每项任务单独请求权限，并提供理由说明为什么需要这些权限。这样，如果事后发现它撒谎，就可以将其定罪。当然，这并不能保证一定成功，但至少有助于发现问题。

类似地，你可以实施某种监控机制，比如目前的链式思维监控器，它可以观察模型的行为，查看是否有任何可疑之处。如果有足够可疑的行为，就会标记出来并提交给人类进行审计。这也可以生成对齐问题的证据。如果人工智能系统实际上是不对齐的，并且你对其进行审计，你会发现：“天啊，这个人工智能系统确实试图注入一个安全漏洞，然后利用该漏洞泄露其权重。”这是一个大问题。我不确定这种情况是否会真的发生。模型永远不会不对齐似乎也是有可能的。如果我们获得了这样的证据，我认为这会极大地改变我的看法，以及其他许多利益相关者的想法。所以我认为这一点非常重要。

总之，还有很多类似的事情，我认为这是非常重要的，而且目前还处于起步阶段——未来有很多值得研究的工作。我还想指出，你之前曾邀请巴克·舍勒格里斯和瑞恩·格林布拉特上过播客。他们讨论的是人工智能控制的工作，而我们这边则更多地关注于构建必要的基础设施，以支持这种方法，而不是具体如何构建监控器等细节，因为这些问题属于标准的机器学习范畴，我认为相对容易解决。

为什么罗欣怀疑智能爆炸 imminent [[01:52:44]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=6764)

罗布·威布林： 我们来谈谈时间线和递归自我改进循环。最近有很多讨论，关于我们何时可能期望出现一个递归自我改进循环——实际上，它是否有可能发生。你认为人们在这方面有些思维上的疏忽，并且这些疏忽可能导致人们预期它会比你所认为的更早发生。请解释一下。

罗欣·沙阿： 是的。我认为现实或世界中最令人震惊的事情之一就是图表上直线的持续存在。我认为斯科特·亚历山大说得很好。我不记得这是哪篇文章，但我认为他说过类似的话：“我不太理解直线之神，老实说，他们让我有点害怕，但我不会赌他们不会继续下去。”

我们最近看到的一个特别的直线是每年大约3%的GDP增长。当然，有很好的理由说明这可能不会一直持续下去，相反，我们可能会在某个时候看到智能爆炸，这将极大地提高增长速度。但我觉得在思考这个问题时，非常重要的是要明确AI与当前情况有何不同？为什么我们要赌直线之神不会继续下去？

我认为通常的答案基于经济内生增长模型，最著名的是来自克雷默1993年的一篇论文[1]。主要有两个效应：

首先，随着技术的进步，这使得你能更快地找到新想法。一旦有了显微镜，生物学研究就可以显著提升。
另一个效应是随着时间推移，发现新想法变得越来越难，因为你已经摘取了那些容易的果实。例如，最初你通过观察自己的尿液发现了磷元素。后来，你需要从一个国家运样品到另一个国家，在世界上唯一能进行这项研究的实验室里进行分析。显然，这要困难得多。

我认为在当前的情况下，我们看到GDP的恒定指数增长——以及技术领域的类似现象，比如摩尔定律就是一个很好的例子——这种观点大致认为，虽然发现新想法变得越来越难，但我们研究人员的数量呈指数级增长，这两者共同作用，创造了持续的进步。

但如果追溯历史足够远，实际上增长看起来是在逐年增加的。那么这个我们尚未考虑的第三个秘密效应是什么？论点是技术的增长率部分取决于更多的技术，因为你得到了显微镜并用它们做更好的事情，但也与人口有关，因为随着人口增长，有更多的人可以产生想法。而一旦有了想法，你可以免费复制它们，它们可以迅速传播——这些也可以增加技术。

因此，技术的增长率被建模为与技术和人口成正比，有时技术被提升到某个常数次幂。这预测了人口和技术的超指数增长。

论点是，在过去的若干年里，人口因素不再适用——因为我们不再将所有的产出重新投资于更多的孩子，而是现在将其投资于生活质量的改善。这就是为什么我们在1800年、1900年左右之前看到超指数增长，之后则是指数增长。

但这个故事真正强调的是想法而非其他任何东西。这些是可以自由复制的东西，一旦拥有，它们就可以应用于你在所有地方使用的技术中。所以当我思考什么会导致智能爆炸时，我认为不断增加的人口或能够产生想法的劳动力是非常关键的。

相比之下，今天的许多讨论都集中在超级人类程序员上，例如：你得到一个AI系统，你可以对它说，“请为我实现XYZ实验”，然后它就会非常出色且远远快于人类完成该实验。论点是，一旦你能做到这一点，AI的进步速度会大幅提升，很快就能达到智能爆炸。至少我认为这是主要论点。总是很难准确解读整个社区的观点，因为有许多人持有略微不同的意见。

我不太认同这种观点，主要是因为超级人类程序员并不能在ML研发的所有领域都有广泛的想法。它只在编程这一特定领域有想法，而这只是ML研发的一部分，根据我的看法，甚至不是其中的主要部分。

我认为，与其将这看作是发明显微镜这样的事情，不如将其视为一种能够加速研究进程的工具。然而，在各个研究领域中，我们经常这样做，并且在过去几十年里，这种做法并未导致超指数增长。工具的发明只是研究进展中的正常部分，通常会导致图表上出现稳定直线。因此，我一般不认为从工具的发明中可以预测重大变化。

另一个例子是，有时人们会提出，智能爆炸的触发点可能是AI研究人员的生产力提高到原来的10倍，如果他们完全没有使用AI系统，或者仅使用2020年左右的AI系统的话。

同样地，我认为这种情况可能已经在芯片开发中发生过。摩尔定律在数十年间呈现出一条干净、平直的直线。但我想，在这条线的开始阶段，人们是在纸上手工设计电路的。而如今，我们有这些令人惊叹的计算机辅助设计软件工具，自动化了大部分这类工作，你仍然可以看到这条直线继续延伸。事实上，为了实现这一点，需要 exponentially（指数级）更多的人员投入这项工作中。

那么，我们现在拥有的研究人员是否比二十年前的研究人员效率提高了10倍？大概率是的，这是我的猜测。但这是否意味着芯片设计领域出现了智能爆炸？答案是否定的。我认为AI领域也可能存在类似的情况。实际上，这一点还不太明确。例如，我们已经大量使用语言模型，用于自动评分和评估其他模型的响应。如果没有这些工具，我们的工作效率会降低多少？我不知道，但可能不会降低到原来的十分之一，而是显著下降。然而，根据我的观察，AI的进步看起来仍然相当线性。

罗布·威林： 好的，让我总结一下。目前我们拥有指数级的经济增长，也就是说，平均每年以恒定的百分比增长，从中期来看。

那些认为会出现智能爆炸的人，即所谓的递归自我改进循环，他们预测的是增长率的增加，甚至是超指数经济增长：比如第一年3%，第二年10%，第三年50%——直到某个点，可能会认为增长率趋于平稳或回落。

那么，是什么因素导致经济增长稳定、增加或回落呢？在我的模型中，以及大多数经济学家的模型中，主要有三个因素：

随着技术进步，做出新的有用发现并进一步推进变得越来越困难。这是第一个因素。
第二个因素是，随着技术进步，我们有了更好的工具来进行科学研究并取得新的发现。
第三个因素是，随着技术进步和经济的增长，我们可以支持更多从事研究并产生新想法的人来推动科学发展。

近年来，第三个因素似乎被忽略了，因为我们并没有将科学进步或经济改善转化为新增人口。尽管我们变得更富有，但出生率却在下降，而不是上升。因此，主要是前两个因素相互作用：发现变得更加困难，同时科技进步为我们提供了更好的工具。这两者大致相互抵消，从中长期来看，增长率约为每年3%，甚至可能有所下降。

更宏观地看，这三个因素在过去都发挥了作用。在马尔萨斯时代结束之前，随着财富的增加，我们几乎将所有资源投入到增加人口上。但在1800年后，这一趋势逐渐消失。当时，正是由于这三个因素的作用，才导致了超指数增长，推动了增长率的持续上升。

现在，将这一理论应用到AI案例中，这意味着要判断我们处于哪种情况，这个思维模型非常强调我们是否正在开发更好的工具来帮助科学研究，还是我们将收益重新投入到更多的研究人员身上，让他们进行科学研究并产生更好的想法或新想法？

这里可能会有些混淆，因为我们在谈论AI进行研究时，AI既是工具，但我们又认为它最终会收敛并成为人类或科学家本身。因此，这是一个复杂的概念性和实证问题：它们何时从主要作为辅助人类工作的工具转变为真正的研究人员，不再仅仅是辅助人类，而是完全承担研究过程？至少我们应该不再仅仅将其视为一个允许我们做得更好的科学仪器。

我认为，人们在这方面有点粗心大意。他们讨论的指标实际上是表明我们为人类开发了更好的工具，但他们将这些与几乎不需要人类参与的自主AI研发混为一谈。后者应该被视为一种人口增长，进而推动超指数增长。因为随着技术进步，我们可以运行更多的模型副本，从而基本上扩大了研究人员的有效数量。我的理解正确吗？

罗欣·沙阿： 是的，没错。你的总结非常出色。我还担心自己说得太多了，但你的总结非常好。

罗宾·沙阿： 是的，我同意。我认为AI提出新想法的程度是影响超指数增长预测的主要因素之一。这是你可以关注的一个方面，而我认为超级人类的编码器并没有达到这个标准。

但真正我想做的是衡量AI的进步，并注意到它何时开始加速。实际上，我们最近与Epoch合作开发了这种测量方法。论文刚刚发布，标题为《AI基准测试的罗塞塔石碑》（A Rosetta Stone for AI benchmarks）。

本质上，我们只是取一个模型在各种不同模型上的基准分数，然后将这些基准拼接起来，得到一个适用于整个范围的一般能力评分——从2020年到现在发布的所有模型，尽管任何单一的基准测试都会在一个较短的时间内饱和。

然后你会使用这个测量方法得出的能力分数，并将其与模型的发布时间进行对比。这些能力分数是由统计模型生成的，我们没有包含任何关于发布时间或时间信息的数据，只依赖于基准性能。然而，当你开始将它们与发布时间进行对比时，结果是一条非常平滑的直线。这非常好。你会看到AI的进步在这个特定图表上看起来相当线性。

这种方法其实非常简单。主要依赖的是我们有能够捕捉AI系统表现的基准测试，并且我认为这种情况在未来还会继续发生。因此，我们可以继续绘制这条曲线，希望如果确实发生了智能爆炸，我们会开始看到加速现象，而不是一直保持一条平滑的直线。

罗布·威林： 那么我们如何判断我们是否只是制造了一个更好的工具，还是创造了许多新的研究人员？你说证据就在成果中。不要把这个问题留给哲学家，而是让那些做基准测试的人来决定AI的进步是否真的在加速。

罗宾·沙阿： 实证主义。

罗布·威林： 很多人认为AI的进步正在放缓。你提到你们试图创建一个尽可能大的数据集，涵盖过去四到五年间尽可能多的不同模型。这是与Epoch合作完成的，他们擅长这种数据收集、编译和聚合工作。他们尝试收集许多不同模型的基准分数，追溯到很长一段时间以前，以查看进展是加快了、放缓了，还是大致呈线性？

你提到，至少根据他们的最佳努力，结果显示它是线性的。这意味着我们并没有创造出更优秀的人类，而是创造了更好的工具。至少目前来看，这似乎是这样的。

罗宾·沙阿： 没错，就是这样。

罗布·威林： 基准分数有很多问题。一方面，它们可能无法完全反映性能范围——要么在低端存在缺陷，要么在高端受到限制。尤其是考虑到这些模型在过去几年中做了很多不同的事情，其中肯定有许多“刷分”行为，人们试图通过迎合基准测试来让自己的模型表现得更好。

此外，还有一个问题就是什么才是真正重要的？有各种各样的技能基准测试，也许你应该给某些基准赋予更大的权重。此外，模型的表现与其经济效应之间可能存在非线性关系，这种关系很可能是非常非线性的。

你觉得Epoch和你们所使用的这种方法有多好，用来判断AI的进步是加速了还是保持了大致相同的速度，从而揭示实际发生的情况？

罗宾·沙阿： 我基本上同意你提到的所有批评意见。这种方法会继承基准测试的所有问题，因为最终输入只有基准测试的表现。不过，我认为从“直线之神”那里学到的经验是，对于某些问题来说，确实有很多细节和细微差别很重要，如果你想要做出非常精细的预测；但在高层面上，这些细节往往会相互抵消，最终结果仍然可以接受。我认为这一点在这里也适用。

罗布·威林： 举个例子，你可能会说现在的模型被“刷分”了，有很多人在迎合基准测试，但两年前和四年前也有类似的情况。只要这种情况没有变得更糟，那么这条线仍然是合理的。

罗宾·沙阿： 是的。而且实际上，我认为在实践中，“迎合测试”的行为对结果的影响不会太大。当然，它确实会带来一些变化。Anthropic在这方面可能是最不倾向于过度适应现有基准测试的公司。事实上，如果你看看他们产生的分数，我认为它往往低估了Claude或Anthropic模型的表现，相对于其他提供商的模型而言——因为一般来说，由于Claude模型没有过度适应现有的基准测试，它们在基准测试中的表现通常会低于其实际水平。

所以，是的，这是真的。但如果你在图表上看，它是一个非常小的差异。它并不大。如果把它往上移动，它仍然看起来是线性的。这并不会真正改变“是否是线性”的观察结果。

Rob Wiblin： 你是在说，进步速度的增加会在图表上显得非常显著。它可能会非常明显地跳出来，而这些效应不足以让它消失。

Rohin Shah： 没错。但我确实会警告人们不要用这个分数来做非常精细的事情，比如比较 Claude、Gemini 或其他模型的好坏。或者，例如，试图理解开源模型和闭源模型之间的差异——我认为开源模型可能比闭源模型更倾向于过度拟合基准测试，如果你试图用这个分数来精确比较两者，它可能会稍微误导你。

Rob Wiblin： 所以当 AI 成为人类，或者至少成为 AI 研究人员，而不仅仅是 AI 研究人员的工具时，你可能会合理地预期 AI 研发和 AI 能力会有相当突然的进步。你是对这种突然性持轻微否定态度，还是根本否定它会发生？或者你认为它可能比人们想象的要慢一些，但你仍然认为它会发生？

Rohin Shah： 我对突然性持轻微否定态度。我并不是完全否定会出现智能爆炸（intelligence explosion）。

那么，我对什么感到相当有信心呢？那将是一个包含许多强前提条件的非常有力的声明，比如：“当你拥有这样的 AI 系统，以至于对于几乎所有你关心的经济上有价值的任务，你都会更愿意雇佣 AI 系统而不是人类。”——这其中包括 AI 比人类便宜，而我认为这一点并非理所当然。假设我们不采取任何措施来阻止这种情况发生，并且实际上我们正在利用 AI 系统来大幅加速各个领域的研究和开发（不仅仅是 AI，而是整个经济），那么很可能在百年之内，我们将经历某种形式的智能爆炸并达到技术成熟。

这有太多的前提条件了。这仍然是一个相当疯狂的声明。我承认会发生智能爆炸，而且我对这一点相当有信心。但它比我认为实际会发生的情况要弱得多。实际发生的情况可能会更快，而且会比这个声明所暗示的时间早得多。

我实际上要说的是：AI 系统能够自动化大部分 AI 研发工作，而不是所有任意的研发工作，这种可能性很大；它可能在五到十年内完成，而不是一百年，具体取决于你设定的起点；等等。

回到你最初关于突然性的提问，我之所以对突然性持轻微否定态度，是因为我预计第一个能够真正自动化 AI 研发的系统可能非常昂贵，甚至可能比人类还要贵。你可以从过去一年中推理计算能力的投资激增中看到这一点。谷歌的 Deep Think 算法进一步提升了推理规模，以获得更好的结果。我认为你应该基本上预期这种情况会继续下去。

因此，第一个自动研究人员的形象可能是一个相对笨拙的系统，不像人类研究人员那样“聪明”，但它会花大量的时间进行推理，探索无数的死胡同，意识到它们是死胡同后又回来尝试其他方法——而人类永远不会走这条路，因为他们会提前知道这是死胡同。这就是它的自动化研究方式，以至于它甚至可能比人类研究人员还要昂贵。

然后随着时间的推移，我们会改进它。成本会迅速下降，这通常是 AI 的情况。但这表明它不会那么突然。AI 将达到与人类相当的成本，然后开始变得比人类更具成本效益，这将引发加速。

Rob Wiblin： 但这样实现需要相当长的时间，而不是几个月或类似的情况。

Rohin Shah： 如果你从 AI 系统刚刚与现有的人类 AI 研究人员大致相当的那一刻开始算起，那么没错，就是这样。这就是为什么我认为它需要几年而不是几个月。但我大部分的时间延迟只是认为，即使达到那个点也需要相当长的时间——相当长的时间，比如十年左右，我觉得在过去几年里这会被称为“极其短的时间线”，而现在则被称为“中等偏长的时间线”。

Rob Wiblin： 是的。我认为这些年里有一个普遍的现象，每隔几年就会有一波关于 AI 时间线的恐慌，人们开始期待一个递归自我改进循环会在很短的时间内出现。我的印象是，你在这方面并没有受到太大影响。为什么你没有根据已经发生的事件或结果进行更新？

Rohin Shah： 我猜最大的区别在于，我脑海中对 AI 进展的图景与现实相当接近。

例如，我认为最大的时间线恐慌（比如在一月份发生的那种）来自于推理模型o1的出现，特别是o3——其中关键的想法是“让我们实际上将强化学习应用于大型语言模型。” 我一直认为，从至少2019年起，甚至可能更早，我们确实需要使用强化学习来开发强大的人工智能系统。如果你回顾当时所做的大部分工作，像辩论这样的内容，它们隐含地依赖于强化学习作为构建强大人工智能系统的首选方法。如果不用强化学习，辩论看起来就毫无意义。

所以我一直期待强化学习的到来。但从我的角度来看，其他人突然对强化学习的出现感到惊讶。而我看到它时，只是觉得：“也许一旦我们进行强化学习，它就能完美地泛化到所有事情上——就像指令跟随一样，能够很好地泛化到所有事情——但实际上并非如此。”

所以我认为我的时间线并没有发生太大变化，因为我早就认为强化学习不太可能泛化到所有任务。但如果我足够细致地跟踪这一进展，我可能会稍微调整一下对o1或o3发布的时间预期，使其略微延长。

罗布·威林： 那么，为什么推理模型的整体表现……我想这是描述更新的一种方式：人们惊讶或震惊于强化学习被应用于这些模型以提升推理能力。大多数人会说，他们对推理能力的提升印象深刻，并且认为这很有用。但听起来你并不觉得特别令人印象深刻。对你来说，这并不出乎意料。

或者可能是这样的：它们在被强化学习训练的任务上表现得很好，但你没有预料到这种能力会泛化到其他任务，并产生巨大的经济影响——事实上，情况并非如此。

罗欣·沙阿： 是的，这基本上是对的。对我来说，泛化能力才是关键所在。如果你想针对某个特定基准并应用机器学习，我认为结论是：你可以做到这一点。人们会选择那些模型能够完成的任务，所以并不是说你可以选择任意一个目标，然后简单地用机器学习的方法去解决它并成功。

但我确实认为，当某人专门为某个特定目标优化时，你应该非常谨慎地评估从这个结果推断出通用人工智能（AGI）的可能性有多大。这是一个相当困难的推断过程，你需要重点关注泛化能力。

罗布·威林： 好的，那么这就是让你感到时间线恐慌的事情：当你在一个实际任务上训练模型，然后发现它们在完全不同的任务上表现得非常好、非常有用？

罗欣·沙阿： 是的，我认为这是正确的。当然，从推理模型中可以看到一些类似的现象，但并不是完全没有泛化能力，只是不像我原本预期的那样显著。

特别是我关注的是自主性任务，如今我认为推理模型在这些任务上已经相当不错了。实际上，相对于当时的预期，它们的表现仍然稍显不足，但现在比之前好得多。部分原因在于，公司已经开始为自主性任务进行训练。

给希望影响大型AI公司的外部研究人员的建议 [[02:21:55]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=8515)

罗布·威林： 让我们谈谈谷歌DeepMind——对于这样一个重要的组织，我觉得外界的人，包括听众和一般意义上的局外人，对其了解并不充分。

许多AI公司之外的研究人员，无论是从事治理研究还是技术研究，都希望他们的研究成果能被这些公司（包括DeepMind）阅读、吸收并采用。那么，研究人员可以做些什么，才能增加他们的工作被公司内部人员阅读或使用的可能性呢？

罗欣·沙阿： 确实有一些方法可以帮助他们实现这一点。再次强调，考虑到各种约束条件相互作用，我们只能做有限几件事，而且需要投入大量精力才能推动这些事情。这或许可以用“公司冷漠”的说法来概括，但我认为更准确的说法是“公司有很强的动力，但只能做有限几件事”。

基于这一点，有几件事值得去做。首先，在投入大量时间进行研究之前，先与公司里的某个人沟通一下。联系一位在公司工作的同事，说：“这是我计划要做的事情，你觉得它是否有用？”这是一个非常简单的步骤，但令人惊讶的是，很多人并没有这样做。然而，这似乎是目前最有可能提高你的工作被公司采纳的机会的方法。

罗布·威林： 如果人们经常这样做，你觉得你会不会花很多时间回复这些邮件？

罗欣·沙阿： 如果他们给我发邮件，可能不会得到太多回复，因为我收到的邮件实在太多了。我认为我的大多数报告都会很乐意与人讨论这些内容。我承认，现在我已经收到了足够多的这类信息，感觉有点像负担，而不是一件令人兴奋的事情了。但之前它确实是一件令人兴奋的事情，直到变得非常普遍。

罗布·维布林： 好的。除了发邮件询问他们的工作是否有用之外，人们还能做些什么呢？

罗欣·沙阿： 所以还有其他事情，我最近做了一个关于“如何进行理论研究以便实证主义者会倾听”的演讲（How to theorize so empiricists will listen）。这也可以同样被称为“如何进行安全研究以便公司会倾听”。

从这个演讲中得出的基本要点——最明显的一点，但仍然值得问问自己——是他们是否真的关心？有时候人们研究的问题我们实际上并不关心，也不认为它们重要。我认为安全社区在这方面做得相当不错，但这种情况仍然会发生，有时人们可能会对我们关心或不关心的内容感到惊讶。

例如，考虑一下越狱攻击。我们现在非常关注越狱攻击，因为模型已经变得足够强大，滥用可能成为一个严重的问题。但如果回顾一年或两年前，人们做了大量的越狱研究，并声称这意味着公司在对齐模型方面做得不够好，因为它们很容易受到越狱攻击的影响。

我不知道其他公司的情况，但在GDM，我们的立场基本上是，考虑到模型的能力，我们并没有特别担心任何实际的滥用场景。安全的核心在于保护用户免受模型无意且有害行为的影响。因此，有一段时间，围绕着模型总是可以被越狱以及完全无法防御这一话题展开了很多讨论。而真正的答案只是，我们甚至还没有尝试阻止越狱攻击。

罗布·维布林： 好的，但现在你们正在努力阻止它了吗？

罗欣·沙阿： 是的，我们现在正在努力阻止它。如果有人希望我们使用他们在越狱攻击方面的研究成果及其防御方法，我们会非常乐意采纳。

罗布·维布林： 我应该说明，所有这些建议都基于一个前提，即你正在进行的研究希望一家AI公司能够阅读并吸收它并加以利用。有些人会有自己的不同想法，他们会开发一些东西，希望将来人们会被说服其有用性，或者以其他方式具有价值。

罗欣·沙阿： 绝对没错。研究有许多不同的作用机制。我当然只在谈论如果你希望一家公司现在就使用你的研究时的情况。

无论如何，第一步是：“他们是否真的关心？”

第二步我称之为“你是否在提供帮助？”但这是一种非常具体的帮助形式。具体来说，我认为你应该提出一个解决方案，或者构建一种评估方法或某种指标。

当然，还存在不是这些情况的研究，即某些研究通过某种理论来更好地理解某个现象，从而增加对该现象的理解，但并未解决特定问题，也没有产生公司会关心的指标或评估方法。

还有很多类似的研究例子。我认为基本上，除非这些研究恰好涉及我们非常关心的核心问题，否则我们不太可能使用它们。鉴于我们都忙于工作，将任何新事物纳入其中都需要大量精力，通常需要是一个指标、评估方法或某种解决方案。

罗布·维布林： 所以，如果人们正在进行有趣的理论研究或初步的实证工作以更好地理解某个现象，你会说：“这很好，但等到你有了一个解决方案再回来”？

罗欣·沙阿： 大致如此，没错。而且再次强调，我认为这是很好的研究，人们应该去做。它可以帮助未来开发更好的解决方案。我只是不认为他们应该认为——

罗布·维布林： 你会花很多时间阅读它。

罗欣·沙阿： 没错，就是这样。接下来，尤其是当你提出一个解决方案时，下一步要做的就是评估你的解决方案——或者至少在概念上评估你的解决方案，即使不是通过实验——根据公司非常关心的各种指标来进行评估。大多数研究都会关注它是否真正解决了最初设定的问题？这一点非常重要，你必须进行这种评估。这是最重要的一步。

但除此之外，还有一些其他因素：比如，这会在计算资源方面增加多少成本？会增加多少延迟？如果你想象一个步骤是在AI系统生成响应之后运行，然后在发送响应给用户之前还要进行许多额外的操作，那么这很可能行不通。虽然不一定绝对不行，但成本非常高。

还有实现复杂性和组织复杂性。如果你的解决方案涉及到在架构层面做某事，同时还需要读取AI系统的内部结构并与之连接起来，这跨越了太多不同的团队和堆栈中的多个抽象层次，因此实施起来比那些仅仅在推理过程中发生、只需运行一个监控器并通知相关团队的情况要困难得多。

罗布·维布林： 还有其他容易实现的例子吗？除了那个之外。

Rohin Shah: 是的，我认为有几个方面。例如，如果他们的数据集可以是一个有用的贡献，那么尝试在后训练阶段添加一个数据集就相当容易了。有时候你尝试在后训练阶段添加它，但由于某种原因，它会使模型在某个完全无关的任务上表现更差，然后你就无法使用这个数据集，这有点遗憾。所以理想情况下，在构建数据集时，你应该评估它是否可能对其他某些方面产生负面影响。但要做到这一点有点困难。

但如果有人向我提供一个数据集，并说：“在这个数据集上进行训练可以显著提高这个指标，而且似乎对这三个明显可能受到影响的其他指标没有不良影响。”我会觉得这很有说服力，并认为，是的，也许我们应该这么做，假设它解决了实际问题。

所以我认为数据集、指标、评估和监控：这些通常是相对容易做的事情。如果我们认为值得实现，所有这些都相对容易实现。

Rob Wiblin: 还有什么其他建议吗？

Rohin Shah: 一个是不要做学术界那种用复杂方法解决问题的做法，而是用你能想到的最简单的方法来解决它。

Rob Wiblin: 我猜你是说前沿技术在其他方面可能有用，比如推动科学进步，未来可能会有价值，但如果人们希望在任何实际商业模型中尽快使用它，那么它必须尽可能简单，并且尽可能成熟稳定。

Rohin Shah: 这是比较慷慨的说法，没错。比较 cynical 的说法是，学术界奖励复杂、形式化的东西，而对未调优的基线并不奖励。如果知道基线没有被很好地调优，就不会奖励它，但很难判断一个基线是否真的没有被很好地调优。

Rob Wiblin: 什么是未调优的基线？

Rohin Shah: 未调优的基线是指你用来解决问题的一种默认方式，而你试图做得比它更好。

Rob Wiblin: 你是故意让基线看起来很差，还是没有很好地完成它？

Rohin Shah: 没错，但不是故意的。通常是你实现一次基线，然后就没有花时间去调整它的超参数，导致它的表现不如预期的好。只是很容易没有花足够的时间去完善你的基线，让它表现得更好。结果——

Rob Wiblin: 它会让你的其他方法看起来更好。

Rohin Shah: 没错。考虑到学术界的激励机制，即发表新颖成果和大量发表论文，我认为这是一个相当普遍的问题。所以我认为如果你想发表论文，这往往是你会做的事情。如果你想让你的研究被公司里的人使用，那就非常重要的是你要尝试那些显而易见的方法，并且要认真对待这些显而易见的方法。只有当这些方法真的失败了，你才尝试做一些更复杂的东西。

Rob Wiblin: 到目前为止，GDM 最受外部研究帮助最大的是什么？

Rohin Shah: 我认为最值得一提的是 Redwood Research 的 AI 控制研究。我们一直计划监控我们的 AI 系统，这并不是一个新的想法，但他们提出的关于如何评估其效果的具体概念框架，特别是“可信”和“不可信”模型之间的区别，我认为是非常好的。

他们发表的第一篇论文 arxiv.org/abs/2312.06942 展示了各种不同的控制协议，如何评估它们的安全性和实用性，并利用这些信息决定应该采用哪种协议。我认为这对我的控制工作思考方式产生了很大影响。这可能是最明显的例子。

Rob Wiblin: 所以这是今年早些时候的 Buck Shlegeris 和 Ryan Greenblatt 的节目——尤其是 Buck Shlegeris 谈论 AI 控制议程的部分。

我觉得那期节目当时并没有像我希望或预期的那样引起轰动。但行业里的人不断引用它，我认为如果当时没听的人，因为某种原因觉得它听起来不够吸引人，现在再回头看，或者重新听一遍，会发现它是非常重要的基础性工作，而且越来越相关。

Rohin Shah: 是的，绝对如此。我认为在中期内，控制可能是我们论证 Gemini 安全性的主要方式，至少对于对齐问题和内部部署而言。我认为很可能是通过控制风格的论证。所以 definitely 是一个需要关注的重要领域。

其他论文：还有一篇关于观察性缩放定律的论文 arxiv.org/abs/2405.10938，我认为你可以把它看作是之前我们讨论过的 Rosetta Stone 论文的前奏，我们在那里将基准测试拼接起来以衡量整体 AI 进展。我认为观察性缩放定律论文更多地考虑了如何预测特定基准的结果？这也是一个很好的应用。我认为大部分是我们之前没有深入思考的领域，但他们展示了在这里可以做些什么。我认为这对我思考基准拼接 / Rosetta Stone 方法产生了很大影响。所以这篇论文对我影响很大。

其他例子包括各种链式思维监控相关的论文。我认为我无法指出哪一篇论文特别重要，但从整体上看，这些论文已经构建了一个相当不错的研究文献，探讨了链式思维监控在何时有效、何时失效的问题。我认为有些论文研究了在链式思维监控中，你能在多大程度上说服监控系统一切正常，无需标记任何问题。我认为这是一个值得研究的课题，其中的具体定量结果对我也很有启发。

GDM 最热门的职位 [[02:37:03]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=9423)

Rob Wiblin: 我想很多人都希望能在 GDM 找到一份工作，甚至其他 AI 公司的员工也可能有兴趣考虑跳槽，因为 GDM 在过去几年里其模型取得了显著进展。你觉得目前最难填补的是哪些职位？市场上最难找到的技能是什么？

Rohin Shah: 我会再次回到我之前提到的主题，即挑战更多在于实施而非确定需要做什么。我们有很多想法，也知道我们需要做什么。然而，实施起来却更困难，因为需要检查和确保不会对系统造成损害。

因此，我认为在过去一年甚至两年里，我们更需要那些愿意做显而易见的事情并将其落地的人，而不是那些想要找出最优解并撰写酷炫研究论文的人。

Rob Wiblin: 我们在谈论 AGI 安全与对齐团队，对吧？

Rohin Shah: 是的，我主要是在谈论 AGI 安全与对齐团队。我认为重点在于执行显而易见的事情，而不是研究。实际上，这也意味着相对于机器学习研究，我们更注重软件工程。

我仍然认为我们重视概念能力、研究品味（ML 研究员的标准）以及 ML 工程技能。在进行此类实施时，这些技能都会用到。你需要测试系统的性能，这意味着你需要构建良好的评估方法，避免过拟合，并且对此要小心谨慎。所以这些技能并非无关紧要。我只是觉得现在相对于一年前，甚至两年前，我们更注重完成任务、软件工程和实现，而不是单纯的研究。

Rob Wiblin: 目前你们正在招聘哪些具体职位？或者总体上你们在大量招聘吗？我个人感觉 Anthropic 正在大规模招聘，OpenAI 也总是有很多职位空缺。GDM 的情况是否类似？

Rohin Shah: 不，我认为我们现在招聘的人数比 Anthropic 和 OpenAI 少得多。我们目前有几个职位正在招聘（点击这里查看）。此外，其他团队也有一些相关职位开放，AGI 安全与对齐团队并不是唯一与 AGI 安全相关的团队。

例如，安全团队目前正在招聘工程师，负责 AI 控制方面的工作。我认为这是一个非常棒的职位，极具影响力。正如我之前所说，这可能是我们用来论证 Gemini 不会在中期内因失控而导致危害的主要论点。因此，我认为这是一个极其有用的职位。虽然它不属于 AGI 安全与对齐团队，但他们会与我们密切合作。

在我的团队中，我们现在正在招聘一名从事前沿安全风险评估的工程师（点击这里申请）。这个职位将负责运行危险能力评估并撰写前沿安全报告。我不特别认为前沿安全报告需要更加详细，但如果有人愿意投入时间来完善它，欢迎加入我们。团队中的个人可以灵活地去做这样的事情。

实际上，我希望到这段录音发布时，这个职位可能已经不再存在了。但我们确实会持续发布新的职位（点击这里查看）。

也许我可以发送一个兴趣表达表单的链接，让大家填写，这样当有新职位开放时我们可以联系他们。部分原因是，像许多其他公司一样，我们受到了大量 AI 辅助申请的影响，因此未来我们不太可能再公开发布招聘启事，因为处理所有简历筛选实在是太麻烦了。

Rob Wiblin: 是的，我觉得人们可能不得不为填写这类表格或申请工作收取费用，这也会引发其他问题。但现在看来，似乎没有其他选择，因为 AI 可以提交完全无法区分的申请，而且可以造假到任意程度。

罗欣·沙阿： 是的，这很棘手。去年我们引入了一个基于大语言模型（LLM）的验证码，但最近的一次尝试中，我认为我们可能能做到，但也可能会误伤很多人类用户。甚至我们去年的LLM验证码也误伤了不少人类用户。不是很多，大概有5%左右。现在我不确定是否能设计出一个不会产生大量误报的方案。

罗布·维布林： 我想“帮我订一张机票”可能会比直接收取费用更贵吧？有没有什么特别的理由让你想要加入GDM呢？

罗欣·沙阿： 基本上我的理由是，公司安全团队可能是技术层面上确保AI系统安全的最大推动力，这也是加入它们的一个好理由。

罗欣如何保持积极心态 [[02:42:55]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=9775)

罗布·维布林： 好的，我们应该结束了。我想最后一个问题，我给你抛一个来自观众的难题：罗欣，在这些动荡时期，你是如何保持如此乐观和积极的心态的？

罗欣·沙阿： 有些答案可能有点无聊，也不太具有普遍性。首先，从性格上来说，我本身就比较稳定，情绪波动不大。其次，正如在这期节目中可能已经有所体现的，我认为当前的情况并没有其他人想象的那么糟糕。

但我确实经常且非常认真地专注于我能控制的事情。这不是我这么做的原因，但我认为这对在“这些动荡时期”保持积极心态非常有帮助。它确实让我专注于那些我有能力影响的领域，而专注于能够真正产生影响的地方，本身就是一件很棒的事情。

罗布·维布林： 今天的嘉宾是罗欣·沙阿。非常感谢你来到《80,000小时播客》，罗欣。

罗欣·沙阿： 非常感谢，罗布。很高兴能来这里。

Rohin Shah 谈在 Google DeepMind 推动 AGI 安全的真实体验（以及我为何不同意‘末日论者’）

播客收听

问这期播客

TL;DR · AI 摘要

核心要点

结构提纲

思维导图

金句 / Highlights

章节

Rohin Shah 认为灾难性 AGI 对齐失败不是默认结果，缺乏足够强的论证支持其必然发生。

他指出，虽然 AI 可能出现欺骗行为，但强化学习周期短（如一周或一月），不足以训练出长期欺骗策略。

他认为普通对齐方法（如监督学习、RLHF）已足够应对当前和可预见的 AGI 风险。

转录

节目笔记

访谈实录

Rohin Shah 是谁？[[00:00:00]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=0)

为什么 Rohin 认为我们不会遭遇灾难性对齐失败 [[00:00:49]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=49)

安全与对齐承诺的局限性 [[00:10:38]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=638)

Rohin 的团队在 Google DeepMind 是否拥有否决权？[[00:27:36]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=1656)

中央银行作为监管人工智能的路线图 [[00:33:34]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=2014)

模型部署前评估有多有用？[[00:37:41]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=2261)

治理可能是比对齐更大的瓶颈 [[00:43:55]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=2635)

为什么不直接暂停 AI 进展？ [[00:51:44]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=3104)

我们还能多久读懂人工智能的“思维”？[[00:54:17]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=3257)

有时，强调安全问题反而会分散资源，阻碍真正提升 AI 安全性 [[01:09:51]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=4191)

被低估的GDM论文：训练消除隐藏奖励作弊 [[01:28:59]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=5339)

Google DeepMind 的构建 AGI 安全计划 [[01:40:29]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=6029)

为什么罗欣怀疑智能爆炸 imminent [[01:52:44]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=6764)

给希望影响大型AI公司的外部研究人员的建议 [[02:21:55]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=8515)

GDM 最热门的职位 [[02:37:03]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=9423)

罗欣如何保持积极心态 [[02:42:55]](https://80000hours.org/podcast/episodes/rohin-shah-google-deepmind-agi-safety/?t=9775)