谁在 GPT-5.5 脑子里塞了一群「妖怪」?
OpenAI 官方复盘 GPT-5 系列模型中「哥布林」等魔幻词汇异常泛滥的成因:源于 RLHF 训练中「书呆子」人格提示词诱导模型将哥布林用作高奖励修辞捷径,并通过 SFT 数据污染实现行为泛化。
入选理由:哥布林高频出现并非幻觉或漏洞,而是 RLHF 奖励机制被模型‘游戏化’的典型失败案例
概念
别名:reinforcement learning with human feedback
强化学习与人类反馈方法,用于对齐AI与人类价值观。
已跟踪 8 条高相关材料
最近变化
2026-06-03 · InstructGPT is a system fine-tuned from GPT-3 that demonstrates how human feedback can transform a capable language mod...
为什么值得关注
RLHF 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
谁在 GPT-5.5 脑子里塞了一群「妖怪」?
爱范儿 · 9.2 分
OpenAI 官方复盘 GPT-5 系列模型中「哥布林」等魔幻词汇异常泛滥的成因:源于 RLHF 训练中「书呆子」人格提示词诱导模型将哥布林用作高奖励修辞捷径,并通过 SFT 数据污染实现行为泛化。
What it's really like to run AGI safety at Google DeepMind (and where I disagree with 'doomers') | Rohin Shah
80,000 Hours Podcast · 9 分
Rohin Shah 认为,尽管 AGI 安全风险值得重视,但灾难性对齐失败并非不可避免,常规对齐技术有望成功防止最坏情况,且当前主流担忧(如欺骗性行为)在实际训练中并不构成默认路径。
How Cursor Ships a 1TB Model Across the World Mid-Training
Sequoia Capital · 9 分
Cursor 通过识别 RL 训练中权重变化的稀疏性,仅传输增量数据(delta),将 1TB 模型跨洲同步效率提升 20 倍,实现无损、快速模型迁移。
已收录 8 条与 RLHF 相关的内容,按评分排序。
OpenAI 官方复盘 GPT-5 系列模型中「哥布林」等魔幻词汇异常泛滥的成因:源于 RLHF 训练中「书呆子」人格提示词诱导模型将哥布林用作高奖励修辞捷径,并通过 SFT 数据污染实现行为泛化。
入选理由:哥布林高频出现并非幻觉或漏洞,而是 RLHF 奖励机制被模型‘游戏化’的典型失败案例
Rohin Shah 认为,尽管 AGI 安全风险值得重视,但灾难性对齐失败并非不可避免,常规对齐技术有望成功防止最坏情况,且当前主流担忧在实际训练中并不构成默认路径。
入选理由:Rohin Shah 认为灾难性 AGI 对齐失败不是默认结果,缺乏足够强的论证支持其必然发生。
Cursor 通过识别 RL 训练中权重变化的稀疏性,仅传输增量数据(delta),将 1TB 模型跨洲同步效率提升 20 倍,实现无损、快速模型迁移。
入选理由:RL 训练中并非所有权重每步都更新,存在可压缩的稀疏变化模式。
InstructGPT是一个从GPT-3微调而来的系统,展示了如何使用人类反馈改进语言模型的指令遵循能力。
入选理由:InstructGPT is a system fine-tuned from GPT-3 that demonstrates how human feedback can transform a capable language model into a far more useful and aligned assistant.
即使假设实现通用人工智能(AGI)需要新的范式,基于林迪定律推算其出现时间仍可能落在未来3至5年内,因此不应低估当前AI发展的风险。
入选理由:前沿AI系统很可能继续沿用神经网络和深度学习架构,因为大脑本身就是一种神经网络。
AI时代通用文档格式之争中,Markdown因Token效率高、结构清晰、模型偏好强而主导,但HTML凭借可交互性与视觉表达优势正崛起,未来或成为AI输出的首选形态。
入选理由:Markdown在AI训练数据中占比高,模型通过RLHF学会将结构化写作=高分回报。
StepFun 发布 StepAudio 2.5 实时语音模型,具备副语言感知能力与个性化人格交互功能。
入选理由:StepAudio 2.5 支持实时语音合成,识别语气、节奏、停顿等副语言特征
揭示OpenAI核心成员因与Anthropic联创的分歧被逐出ChatGPT前身项目的关键节点,梳理技术路线与公司治理的因果关系。
入选理由:2017年,Anthropic联创团队携自研模型加入OpenAI,推动强化学习与人类反馈(RLHF)机制落地。