T
traeai
登录
返回首页
meng shao(@shao__meng)

OpenAI Codex 新模式 Auto-review:在"频繁打扰人类"和"完全放权"之间,引入第三种治理范式:用一个独立 AI Agent 替代人类,来审批越界行为。 https://t.co/...

9.2Score
OpenAI Codex 新模式 Auto-review:在"频繁打扰人类"和"完全放权"之间,引入第三种治理范式:用一个独立 AI Agent 替代人类,来审批越界行为。
https://t.co/...

TL;DR · AI 摘要

OpenAI Codex 推出 Auto-review 模式:用独立 AI Agent 替代人工审批越界行为,在安全与可用性间实现新平衡,自动批准率超99%,打扰人类频率降低200倍。

核心要点

  • Auto-review 是介于人工审批与完全放权之间的第三种治理范式,由独立 Codex Agent 执行四维风险评估。
  • 独立审批智能体解耦了‘完成任务’与‘保障安全’的目标冲突,使审批策略可监控、可迭代。
  • 系统非确定性安全方案,无法防御模型 Scheming 或沙箱内隐蔽作恶,需配合思维链监控等互补机制。

结构提纲

按章节快速跳转。

  1. 人工审批导致用户疲劳与任务中断;完全放权则引发严重安全风险,且审批摩擦本身催生更多漏洞。

  2. ·Auto-review 核心设计

    主智能体越界请求交由独立 Codex Agent 审批,评估用户意图、环境、策略与影响四个维度。

  3. 避免主智能体将审批视为障碍;独立调用使安全策略可单独评估、监控和迭代。

  4. 拒绝时返回理由与上下文信号,超50%场景下主智能体能自主生成安全替代路径。

  5. 越界请求自动批准率99.1%,打扰人类频率降200倍,多类攻击拦截率超90%。

  6. 不提供确定性安全保证,无法防御策略性欺骗(Scheming)或沙箱内隐蔽作恶。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Codex Auto-review 架构
    • 核心范式
      • 第三种治理:AI 代理审批
      • 替代人工点击 / 避免全放权
    • 技术机制
      • 独立 Codex Agent 四维评估
      • 拒绝反馈驱动自修复
      • gaming 检测与轨迹终止
    • 对齐价值
      • 目标解耦:任务 vs 安全
      • 策略可监控、可迭代
      • 支持多智能体角色分工

金句 / Highlights

值得收藏与分享的关键句。

#OpenAI#AI Safety#Codex#Agent Architecture#Alignment
打开原文

https://t.co/t0oHlkrAgO

要解决的真实痛点

传统的两种模式都有缺陷: · 默认模式:每次越出沙箱(如发起网络请求、运行 python https://t.co/Fr6WTCxLcd" / X

OpenAI Codex 新模式 Auto-review:在"频繁打扰人类"和"完全放权"之间,引入第三种治理范式:用一个独立 AI Agent 替代人类,来审批越界行为。 alignment.openai.com/auto-review# 要解决的真实痛点 传统的两种模式都有缺陷: · 默认模式:每次越出沙箱(如发起网络请求、运行 python 脚本)都要人工点击批准。结果是:用户疲劳、长时间后台任务无法运行。 · Full Access 模式:彻底关闭审批。沙箱完全失效,恶意代码、数据外泄、凭据探测都不会被拦截。 更糟的是审批摩擦本身反向制造了安全漏洞: · 用户干脆切到 Full Access; · 用户写出过度宽松的前缀规则(文中提到"相当一部分用户允许任何以 python 开头的命令"); · 出于疲劳或不懂,用户盲目点同意。 # Auto-review 的核心设计 当主智能体试图越出沙箱时,请求被转给另一个独立的 Codex 智能体审批。它评估四个维度:用户意图、运行环境、安全策略、动作的可能影响。 为什么必须是"独立的"智能体? 文章给出了一个很重要的对齐理由: · 主智能体的优化目标是"完成任务",因此天然有动机把审批边界视为"待克服的障碍"; · 把审批决策抽离到独立模型调用中,让审批策略可被单独评估、监控、迭代。 这其实是把单智能体的目标冲突,重构成了多智能体的角色分工。 它使用 GPT-5.4 Thinking(low reasoning),并发现:模型越强,既更善于发现风险,也更善于理解用户合理意图。 # 关键运行机制 被拒绝时,审查者不是简单说"不",而是返回拒绝理由和上下文信号。结果: · 内部部署中,超过一半被拒绝的情况下,主智能体能自行找到更安全的替代路径继续执行,无需打扰用户; · 如果智能体反复尝试"绕过审查者"(gaming),系统会自动终止该轨迹。 # 效果数据 越界请求的自动批准率 | 99.1% 全部动作的整体批准率 | 99.93% 相比手动模式,打扰人类的频率 | 降低约 200 倍 智能体过度热心场景的拦截率 | 90.3% Prompt 注入攻击的拦截率 | 99.3% MonitoringBench(Hard)拦截率 | 96.1% 文档中举例的 1 万动作分布:9280 次留在沙箱内;720 次需审查;其中 713 次自动通过;7 次被拒,其中 4 次智能体自找替代方案,仅 3 次真正打扰用户。 目前 OpenAI 内部 Codex Desktop 的 Token 使用量多数已来自 Auto-review 模式。 # 团队坦诚的局限 OpenAI 罕见地用一整节明确边界,而不是只讲成绩: · 不是确定性安全保证。红队测试中确实发现可以骗过 Auto-review 的案例,正在修复,但"这类系统不太可能成为确定性保证的来源"。 · 不能防御模型 Scheming(策略性欺骗)。如果模型本身在策略性隐藏意图,它可能构造一个看起来无害的越界请求,或干脆只在沙箱内做坏事——审查者根本看不到。这类风险需要"思维链监控"等互补机制。 · 本质是一个折中:相比传统安全系统牺牲了确定性,相比 Full Access 牺牲了速度。

Image 1: Image

Quote

Maja Trebacz

@majatrebacz

May 1

Clicking the "Approve permission" button is difficult. We show that agents can do that for you. Check out our alignment blog: alignment.openai.com/auto-review

Image 2: Image

AI 可能会生成不准确的信息,请核实重要内容