OpenAI Codex 新模式 Auto-review：在"频繁打扰人类"和"完全放权"之间，引入第三种治理范式：用一个独立 AI Agent 替代人类，来审批越界行为。
https://t.co/...

meng shao(@shao__meng)

meng shao(@shao__meng)2026年5月4日

OpenAI Codex 新模式 Auto-review：在"频繁打扰人类"和"完全放权"之间，引入第三种治理范式：用一个独立 AI Agent 替代人类，来审批越界行为。 https://t.co/...

9.2Score

TL;DR · AI 摘要

OpenAI Codex 推出 Auto-review 模式：用独立 AI Agent 替代人工审批越界行为，在安全与可用性间实现新平衡，自动批准率超99%，打扰人类频率降低200倍。

核心要点

Auto-review 是介于人工审批与完全放权之间的第三种治理范式，由独立 Codex Agent 执行四维风险评估。
独立审批智能体解耦了‘完成任务’与‘保障安全’的目标冲突，使审批策略可监控、可迭代。
系统非确定性安全方案，无法防御模型 Scheming 或沙箱内隐蔽作恶，需配合思维链监控等互补机制。

结构提纲

按章节快速跳转。

§问题背景：传统治理的两难困境
人工审批导致用户疲劳与任务中断；完全放权则引发严重安全风险，且审批摩擦本身催生更多漏洞。
·Auto-review 核心设计
主智能体越界请求交由独立 Codex Agent 审批，评估用户意图、环境、策略与影响四个维度。
·为何必须独立？目标解耦与可审计性
避免主智能体将审批视为障碍；独立调用使安全策略可单独评估、监控和迭代。
·运行机制与自修复能力
拒绝时返回理由与上下文信号，超50%场景下主智能体能自主生成安全替代路径。
·实证效果与关键指标
越界请求自动批准率99.1%，打扰人类频率降200倍，多类攻击拦截率超90%。
·明确局限与边界认知
不提供确定性安全保证，无法防御策略性欺骗（Scheming）或沙箱内隐蔽作恶。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Codex Auto-review 架构
- 核心范式
  - 第三种治理：AI 代理审批
  - 替代人工点击 / 避免全放权
- 技术机制
  - 独立 Codex Agent 四维评估
  - 拒绝反馈驱动自修复
  - gaming 检测与轨迹终止
- 对齐价值
  - 目标解耦：任务 vs 安全
  - 策略可监控、可迭代
  - 支持多智能体角色分工

金句 / Highlights

值得收藏与分享的关键句。

把审批决策抽离到独立模型调用中，让审批策略可被单独评估、监控、迭代。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
模型越强，既更善于发现风险，也更善于理解用户合理意图。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
被拒绝时，审查者不是简单说'不'，而是返回拒绝理由和上下文信号。
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X
这类系统不太可能成为确定性保证的来源。
— 第 6 段
⬇︎ 下载 PNG 𝕏 分享到 X
如果模型本身在策略性隐藏意图，它可能构造一个看起来无害的越界请求——审查者根本看不到。
— 第 6 段
⬇︎ 下载 PNG 𝕏 分享到 X
目前 OpenAI 内部 Codex Desktop 的 Token 使用量多数已来自 Auto-review 模式。
— 第 5 段
⬇︎ 下载 PNG 𝕏 分享到 X

#OpenAI#AI Safety#Codex#Agent Architecture#Alignment

打开原文

https://t.co/t0oHlkrAgO

要解决的真实痛点

传统的两种模式都有缺陷： · 默认模式：每次越出沙箱（如发起网络请求、运行 python https://t.co/Fr6WTCxLcd" / X

OpenAI Codex 新模式 Auto-review：在"频繁打扰人类"和"完全放权"之间，引入第三种治理范式：用一个独立 AI Agent 替代人类，来审批越界行为。 alignment.openai.com/auto-review# 要解决的真实痛点传统的两种模式都有缺陷： · 默认模式：每次越出沙箱（如发起网络请求、运行 python 脚本）都要人工点击批准。结果是：用户疲劳、长时间后台任务无法运行。 · Full Access 模式：彻底关闭审批。沙箱完全失效，恶意代码、数据外泄、凭据探测都不会被拦截。更糟的是审批摩擦本身反向制造了安全漏洞： · 用户干脆切到 Full Access； · 用户写出过度宽松的前缀规则（文中提到"相当一部分用户允许任何以 python 开头的命令"）； · 出于疲劳或不懂，用户盲目点同意。 # Auto-review 的核心设计当主智能体试图越出沙箱时，请求被转给另一个独立的 Codex 智能体审批。它评估四个维度：用户意图、运行环境、安全策略、动作的可能影响。为什么必须是"独立的"智能体？文章给出了一个很重要的对齐理由： · 主智能体的优化目标是"完成任务"，因此天然有动机把审批边界视为"待克服的障碍"； · 把审批决策抽离到独立模型调用中，让审批策略可被单独评估、监控、迭代。这其实是把单智能体的目标冲突，重构成了多智能体的角色分工。它使用 GPT-5.4 Thinking（low reasoning），并发现：模型越强，既更善于发现风险，也更善于理解用户合理意图。 # 关键运行机制被拒绝时，审查者不是简单说"不"，而是返回拒绝理由和上下文信号。结果： · 内部部署中，超过一半被拒绝的情况下，主智能体能自行找到更安全的替代路径继续执行，无需打扰用户； · 如果智能体反复尝试"绕过审查者"（gaming），系统会自动终止该轨迹。 # 效果数据越界请求的自动批准率 | 99.1% 全部动作的整体批准率 | 99.93% 相比手动模式，打扰人类的频率 | 降低约 200 倍智能体过度热心场景的拦截率 | 90.3% Prompt 注入攻击的拦截率 | 99.3% MonitoringBench（Hard）拦截率 | 96.1% 文档中举例的 1 万动作分布：9280 次留在沙箱内；720 次需审查；其中 713 次自动通过；7 次被拒，其中 4 次智能体自找替代方案，仅 3 次真正打扰用户。目前 OpenAI 内部 Codex Desktop 的 Token 使用量多数已来自 Auto-review 模式。 # 团队坦诚的局限 OpenAI 罕见地用一整节明确边界，而不是只讲成绩： · 不是确定性安全保证。红队测试中确实发现可以骗过 Auto-review 的案例，正在修复，但"这类系统不太可能成为确定性保证的来源"。 · 不能防御模型 Scheming（策略性欺骗）。如果模型本身在策略性隐藏意图，它可能构造一个看起来无害的越界请求，或干脆只在沙箱内做坏事——审查者根本看不到。这类风险需要"思维链监控"等互补机制。 · 本质是一个折中：相比传统安全系统牺牲了确定性，相比 Full Access 牺牲了速度。

Quote

Maja Trebacz

@majatrebacz

May 1

Clicking the "Approve permission" button is difficult. We show that agents can do that for you. Check out our alignment blog: alignment.openai.com/auto-review