New framework for auditing machine unlearning

Google Research Blog

Google Research Blog2026年6月10日

New framework for auditing machine unlearning

8.5Score

TL;DR · AI 摘要

谷歌提出一种新框架，用于更高效、准确地验证机器遗忘过程，解决当前统计工具在大规模模型审计中的不足。

核心要点

谷歌提出Regularized f-Divergence Kernel Tests框架，提升机器遗忘审计的敏感性和准确性。
传统工具如MMD在检测局部异常时存在不足，新方法能有效控制假阳性并减少假阴性。
新框架适用于大规模模型，降低审计成本并提高统计显著性。

结构提纲

按章节快速跳转。

§引言
介绍机器遗忘的重要性及当前审计工具的局限性。
·机器遗忘的背景与挑战
说明机器遗忘在隐私合规和模型质量中的作用，以及审计的必要性。
›传统方法的不足
指出当前统计工具如MMD在检测局部异常时的局限性。
·新框架的提出
介绍Regularized f-Divergence Kernel Tests框架及其优势。
›理论证明与效果
说明新框架在控制假阳性和减少假阴性方面的理论支持。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

机器遗忘审计新框架
- 背景与挑战
  - 隐私合规需求
  - 模型质量保障
  - 审计工具不足
- 新框架特性
  - Regularized f-Divergence Kernel Tests
  - 控制假阳性
  - 减少假阴性

金句 / Highlights

值得收藏与分享的关键句。

Regularized f-Divergence Kernel Tests框架能有效控制假阳性并减少假阴性，提升审计准确性。
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X
传统工具如MMD在检测局部异常时缺乏必要特异性，难以捕捉复杂异常。
— 第 5 段
⬇︎ 下载 PNG 𝕏 分享到 X
新框架适用于大规模模型，降低审计成本并提高统计显著性。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X

#机器学习#隐私保护#模型审计#统计工具

打开原文

用于机器遗忘审计的新框架

播放静音循环视频

暂停静音循环视频

取消静音视频

静音视频

2026年6月10日

Mónica Ribero，Google Research 研究科学家

我们介绍了一种方法，旨在自信地判断两组数据观测是否来自完全不同的潜在分布，且具有统计显著性。

快速链接

论文

分享复制链接 ×

机器遗忘允许AI系统“遗忘”训练数据中的特定部分，而无需从头开始重新训练模型的巨大成本。这对于法规遵从（如GDPR的“被遗忘权”）、AI安全性和模型质量至关重要。

随着模型处理的数据集变得越来越庞大且高度敏感，验证机器遗忘已从理论理想转变为严格要求，开发者现在必须通过数学证明隐私。然而，由于审计人员通常无法访问模型的内部机制或原始训练数据，他们必须通过查询系统并分析输出样本来严格验证系统。

数据科学家和研究人员用于验证的一种方法是双样本检验，这是一种统计方法，用于判断两组数据观测是否来自完全不同的潜在分布。例如，为了验证遗忘，审计人员可能会将从未见过特定记录的模型的输出与据说“忘记了”该记录的模型的输出进行比较。如果输出在定义的阈值内具有统计差异，则遗忘失败。

随着模型规模和复杂性的增加，双样本检验和其他用于机器遗忘审计的统计工具变得难以实施，并且统计功效下降。为了从大规模模型中固有的随机噪声中识别真正的违规行为，并具有足够的统计显著性，审计人员需要提取大量样本。这使得实际测试在计算上非常昂贵。

为了解决这一日益增长的挑战，我们在AISTATS 2026上介绍了正则化f-散度核检验，这是一种新的框架，旨在使审计机器学习模型更加敏感、灵活和准确。我们从理论上证明，我们的测试自然地控制了任何样本大小的假阳性，并且随着可用数据样本数量的增加，假阴性的风险可靠地趋近于零。

挑战：为什么标准工具不足

评估模型安全性通常需要测量两个复杂数据集之间的距离或差异。不同的应用自然需要不同的“距离”概念。虽然流行的标准化工具如最大平均差异（MMD）在检测数据中的广泛、全局变化（如模型系统性地生成比其对应模型更亮的图像）方面表现出色，但它们往往缺乏捕捉复杂异常所需的特异性。例如，如果添加某个人的数据导致模型仅在被非常精确地提示时生成一个高度特定的异常输出，而在所有其他样本上分布相等，传统的MMD测试可能会完全忽略这种局部变化。

此外，大多数现有的测试框架迫使研究人员做出容易出错的手动选择，例如选择最适合全局或局部变化的特定统计量，或调整复杂的设置，如核带宽和正则化参数。

根据图像宽度确定适当的宽度

对于移动设备上的图像，使用默认宽度

在两个二维分布（上方的蓝色和红色）之间的简单双样本测试中，MMD 在检测全局变化（如均值差异，左图）方面表现出色，但可能会遗漏局部差异（如异常值，中图）或需要超参数调整的非平滑差异（如设置带宽参数，右图）。

除了在实践中难以实施外，当验证机器学习模型的“遗忘”时，双样本测试作为一种验证方法也存在缺陷。考虑下面的例子，说明两个从完全相同数据训练出来的模型可能会产生不同的分布。蓝色分布是重新训练后没有被妥协数据的模型的分布。然而，由于使用不同的批量大小进行重新训练，其分布与标准（绿色）不同。这导致了假阳性，表明被测试的模型是不安全的。

当被测试模型的分布与审计员比较的标准分布不同时，使用双样本测试验证“遗忘”会产生假阳性。

此外，最近的研究表明，通过调整当前设置，AI 模型永远无法完美“忘记”数据；除非它重新追溯其原始训练的每一步，否则它总会留下永久的信息足迹，这些信息本应被删除。因此，对于标准的、局部的“遗忘”算法，实现完美的“重新训练等价性”在本质上是不可能的，而传统的双样本测试总能找到与“遗忘集”的依赖关系。

框架

我们通过提出一种相对距离测试来解决这一挑战，该测试用于衡量未学习模型在分布上是更接近于安全重新训练的模型，还是更接近于原始的、被妥协的模型。

我们的测试作为一种高度可适应的统计工具，利用 f-散度，使审计员能够精确识别特定类型的数据变化，包括：

卡方和Kullback-Leibler（KL）散度：这些方法在识别数据中的平滑和局部差异（如物理模型中的异常值）方面非常有效。

曲棍棒散度：专门用于隐私和遗忘的定义，这种散度使用一个参数来控制统计不可区分性的程度。它有效地设定了一个可接受的阈值，忽略安全预算以下的微小差异，仅在发生有意义的隐私泄露时触发警报。

在高维、现实世界数据上计算这些散度是众所周知的难题。为了在不消耗大量计算资源的情况下使这些复杂的优化问题变得可处理，我们使用核正则化方法来高效估计这些差异。

我们的自适应测试方法会自动选择最佳的散度和最优的超参数配置，以最大化测试的可靠性，完全消除了样本分割的需要。

实验

由于我们提出的测试方法具有通用性，我们进行了大量不同问题的实验。我们在被扰动的均匀分布（合成的两样本基准）上评估了我们的框架，还测试了在物理数据集中的 Expo1D 异常检测任务——这是一个专门领域，利用机器学习来寻找超出粒子物理标准模型的新物理现象。我们使用高能物理数据，因为该领域需要世界上最精确的“差异检测器”——其理念是，如果框架能够发现违背物理定律的罕见粒子，那么它也能发现人工智能模型中的微小隐私泄露。

随后，我们将重点转向审计差分隐私和评估机器遗忘的关键、现实应用场景：

隐私审计：差分隐私通过引入校准噪声，限制单个个体的影响，从而为保护用户数据提供了一个框架。我们通过在两个仅相差一条记录的模拟数据集上采样多个非隐私机制的输出，对它们进行了测试。如果一个机制是真正隐私保护的，那么这两个样本必须无法区分；如果机制存在缺陷，测试应该能够检测出隐私泄露。

机器遗忘评估：我们没有依赖于简单地将一个黄金标准模型（从头开始重新训练，不使用被遗忘数据的模型）与遗忘模型进行比较的有缺陷方法，而是采用了一个三样本相对测试方法，并将其应用于多种已建立的遗忘算法，包括选择性突触抑制、剪枝和随机标签技术。我们的测试评估了遗忘模型的分布是否更接近于安全的黄金标准模型，还是更接近于主动记忆敏感数据的原始、完全训练过的模型。

相对距离的提议框架。如果被测试模型比重新训练的黄金标准模型更接近于被破坏的模型，测试将标记为遗忘失败。如果被测试模型更接近于黄金标准模型，则测试不会标记任何失败。

结果

我们的框架在显著减少手动调参的情况下，成功恢复或超越了所有之前的基线方法。

实验结果表明，没有一种测试方法在所有可能的情景中都始终优于其他方法。相反，不同的 f-散度充当了专门的传感器，对不同类型的局部数据偏移“亮起”。通过在多种统计方法上采用聚合方法，我们的框架成功检测到了标准测试完全遗漏的细微错误和异常。

在隐私审计方面，冰球杆散度测试被证明是一个强大且有效的工具。因为它直接与纯差分隐私的数学基础相一致，它允许审计人员严格控制可接受的数据偏移程度。我们的自适应测试框架通过显著更少的数据样本和远少的超参数调优，成功检测到了隐私泄露。

非隐私机制的检测率（来自标准审计基准）。基于冰球杆的测试器在使用更少样本的情况下，优于之前研究的技术（DP-Auditorium）。

在一项显著的实例中，我们的框架仅使用几千个样本就检测到了特定稀疏向量技术机制（SVT3）中的违规行为，而之前研究的技术如 DP-Auditorium 则需要数百万个样本才能达到相似的违规检测率。

我们的研究结果还表明，需要重新定义如何评估机器遗忘。如下表所示，我们观察到我们评估的所有近似遗忘方法均不符合严格的、标准的两样本遗忘定义。由于两样本测试只是寻找任何分布差异，它们错误地将完全安全的重新训练模型标记为遗忘失败。

相比之下，我们提出的相对三样本测试成功克服了这一缺陷。它正确且一致地将安全重新训练的模型识别为“安全”。在评估近似遗忘算法时，只有随机标签技术通过了评估。

其他流行的方法，如微调、剪枝和选择性突触抑制，被发现无法真正遗忘目标数据。我们强调，这些实验的主要目标是评估遗忘方法，而不是设计算法本身。因此，我们使用了这些遗忘过程的简化实现；在实际生产环境中对遗忘方法进行排序将需要更严格的设置。

不同（简化）遗忘算法的审计结果。精确的遗忘机制从头开始重新训练，不接触遗忘数据，因此从定义上是安全的。然而，由于与“标准”之间的分布差异，两样本测试错误地将它们标记为不安全。三样本测试克服了这一问题。

结论

我们新提出的框架为检查机器学习行为提供了更精确、更灵活且数学上严谨的视角。通过利用正则化 f-散度核测试，研究人员和审计人员现在可以统计地证明模型在大量问题和复杂分布变化中是否表现出不安全行为或数据泄露。

随着这一领域的发展，将我们的实证观察理论化，以准确确定哪种特定的散度最适合其他新颖任务，仍然是未来工作的令人兴奋的方向。建立更紧的样本复杂度界限也将是提高这些审计效率的关键重点。

致谢

此处描述的工作是与 Antonin Schrab 和 Arthur Gretton 共同完成的。我们感谢 Nicole Mitchell 和 Eleni Triantafillou 提供的深刻反馈，以及 Kimberly Schwede 提供的图形和 Mark Simborg 提供的帮助性编辑。

标签：

算法与理论

负责任的人工智能

安全、隐私与滥用预防

其他感兴趣的文章

2026年5月27日通过零信任聚合实现隐私分析安全、隐私与滥用预防

2026年3月31日构建更好的AI基准：多少评分者足够？算法与理论 · 机器智能

2026年3月31日通过负责任地披露量子漏洞来保护加密货币算法与理论 · 量子 · 安全、隐私与滥用预防

×

❮

❯