sandbagging 最近有什么新动态？

traeai 已收录 1 篇与 sandbagging 相关的内容。最新一篇是「A shared playbook for trustworthy third party evaluations」，由 OpenAI Blog 发布。

概念

sandbagging

模型在察觉被评估时故意降低表现的行为，是评估有效性的重要威胁之一。

已跟踪 1 条高相关材料

A shared playbook for trustworthy third party evaluations

OpenAI Blog · 9.2 分

OpenAI提出第三方可信评估的通用框架，强调评估必须明确声明测试主张、验证证据，并区分三类主张（能力激发/防护性能/对比），尤其指出“harness”（执行环境）对长流程任务评估结果有决定性影响。

OpenAI Blog5月31日2741 字 (约 11 分钟)

入选理由：评估报告必须明确说明所测试的主张类型：能力激发、防护性能或系统对比，三者需匹配不同harness设计。

精选文章#AI安全#模型评估#OpenAI#harness#第三方评测英文

回答基于：sandbagging 相关 1 条材料