为Open ASR排行榜添加Benchmaxxer防护机制

TL;DR · AI 摘要
Hugging Face 为防止模型在公开ASR测试集上过度优化,引入私有数据集作为评估补充,但不更新公开平均WER,以维持真实场景性能的衡量标准。
核心要点
- 引入私有数据集防止模型针对公开测试集过度优化(benchmaxxing)。
- 公开排行榜平均WER保持不变,私有数据集需手动开启查看影响。
- 标准化归一化流程与开源评估代码提升基准可信度,但无法完全规避过拟合风险。
结构提纲
按章节快速跳转。
为防止模型在公开测试集上过度优化,引入私有数据集以更真实评估ASR性能。
自2023年上线以来被访问71万次,依赖标准化与开源机制维持社区参与。
使用基于Whisper的归一化器去除标点、大小写,统一美式拼写,确保评估一致性。
UI与评估脚本全开源,支持社区贡献与改进,但加剧了benchmaxxing风险。
Appen与DataoceanAI提供高质量私有数据,仅在用户主动开启时参与评估。
将持续引入新数据与评估设置,提升模型在真实场景中的鲁棒性。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Open ASR Leaderboard 私有数据策略
- 核心问题:Benchmaxxing 风险
- 模型过拟合公开测试集
- WER失真,脱离真实场景
- 解决方案:私有数据集
- Appen & DataoceanAI 提供数据
- 默认不计入平均WER,可选开启
- 支撑机制
- 基于Whisper的归一化器
- 开源评估代码与UI
金句 / Highlights
值得收藏与分享的关键句。
When a measure becomes a target, it ceases to be a good measure. (Goodhart’s Law)
We’re not updating the average WER at this time: by default, the leaderboard’s Average WER remains computed on public datasets only.
Standardization and openness... make benchmarks more susceptible to benchmark-specific optimization ('benchmaxxing').
To prevent potential risks of benchmaxxing or test-set contamination, we will keep these datasets private.
_"当一个指标成为目标时,它就不再是一个好的指标了。"(古德哈特定律)_
简而言之:Appen Inc. 和 DataoceanAI 提供了高质量的英语 ASR 数据集,涵盖多种口音的朗读和对话语音。为防止潜在的“benchmaxxing”或测试集污染风险,我们将这些数据集设为私有,以实现对多个任务性能的高质量评估。
目前我们不会更新平均 WER:默认情况下,排行榜的平均 WER 仅基于公开数据集计算。您可以通过切换开关选择性地包含私有数据集,以查看其影响 👀
- * *
自 2023 年 9 月上线以来,Open ASR Leaderboard 已被访问超过 71 万次。我们对社区在推动语音识别技术方面的热情与动力感到无比振奋 🗣️

两个词概括了维护 Open ASR Leaderboard 这类基准的目标(同时也是挑战):
- 标准化:模型在使用方式和输出格式上可能存在不同约定,例如是否包含标点和大小写。数据集同样面临类似挑战,结构也可能各异。为此,所有测试集均已集中到 Hub 上的单一数据集中,便于访问和预览。此外,为统一模型输出和数据集转录内容,我们使用了一个标准化器,该工具(除其他功能外)会移除标点和大小写,并统一为美式拼写。它基于 Whisper 的标准化器实现。
标准化与开放性是实现有意义基准测试的关键,但同时也使基准更容易受到“benchmaxxing”(即针对基准进行特定优化)的影响——模型在排行榜上表现提升,但实际鲁棒性并未相应提高。随着模型和应用场景的演进,Open ASR Leaderboard 将持续整合高质量数据集和新的评估设置,以更真实地反映实际性能,并增强对基准特定优化的抵抗力。
正如我们在报告中所讨论的,不存在一个“万能”的 ASR 模型:有些模型在美式英语上表现更优,有些在多样口音和多语言场景中更出色,还有些则针对速度或对话音频进行了优化。不同应用场景对能力的优先级也各不相同,因此在某一维度表现较差的模型,整体上未必更差。Open ASR Leaderboard 的目标正是捕捉这些细微差别,提供更全面的 ASR 性能视图。
新增高质量私有数据集
为此,我们与 Appen Inc. 和 DataoceanAI 合作,精心整理了用于 ASR 基准测试的高质量数据集。以下是各数据子集的详细信息:
| 数据集 | 口音 | 时长 [小时] | 男性 (%) / 女性 (%) | 类型 | 转录内容 | | --- | --- | --- | --- | --- | --- | | Appen Scripted AU | 澳大利亚 | 1.42 | 49 / 51 | 朗读 | 含标点、大小写 | | Appen Scripted CA | 加拿大 | 1.53 | 52 / 48 | 朗读 | 含标点、大小写 | | Appen Scripted IN | 印度 | 1.02 | 49 / 51 | 朗读 | 含标点、大小写 | | Appen Scripted US | 美国 | 1.45 | 49 / 51 | 朗读 | 含标点、大小写 | | Appen Conversational IN | 印度 | 1.37 | 51 / 49 | 对话、自发 | 含标点、非流利语 | | Appen Conversational US003 | 美国 | 1.64 | 49 / 51 | 对话、自发 | 含标点、大小写、非流利语 | | Appen Conversational US004 | 美国 | 1.65 | 49 / 51 | 对话、自发 | 含标点、非流利语 | | DataoceanAI Scripted US | 美国 | 2.43 | 54 / 46 | 朗读 | 含标点、大小写(专有名词)、非流利语 | | DataoceanAI Scripted GB | 英国 | 2.43 | 47 / 53 | 朗读 | 含标点、非流利语 | | DataoceanAI Conversational US | 美国 | 8.82 | NA | 对话、自发 | 含标点、非流利语 | | DataoceanAI Conversational GB | 英国 | 5.96 | NA | 对话、自发 | 含标点、非流利语 |
以下为示例音频,展示内容多样性(朗读、对话、缩略词、非流利语、专有名词)。
尽管私有数据集看似违背了开放精神,但我们相信引入此类数据集将显著提升 Open ASR Leaderboard 的可信度,因为它们不太可能被用于 benchmaxxing——无论是模型开发者明确使用公开测试集,还是试图寻找与特定数据集高度相似的训练数据来提升其宏观平均得分。
借助这些数据集,我们还能提供针对性指标,以突出受控且常趋于饱和的场景(如朗读、美式口音)与更复杂情境(如对话、非美式口音)之间的差距与偏差。以下是新“私有数据”标签页的截图。

各列计算方式如下:
- “平均 WER” 计算各数据提供方平均值的宏观平均,权重相等。
- “平均朗读” 对所有朗读数据集进行宏观平均。
- “平均对话” 对所有对话数据集进行宏观平均。
- “平均 US” 对所有美式口音数据集进行宏观平均。
- “平均非 US” 对所有非美式口音数据集进行宏观平均。
我们有意不提供每个子集的单独得分,以避免模型开发者通过特定数据提供方或口音进行针对性优化。
如何在我的模型上评估这些数据?
将您的模型提交至 Open ASR Leaderboard,我们将为您运行评估!与以往一样,将模型添加至排行榜的过程在 Open ASR Leaderboard GitHub 上进行:
- 提交拉取请求,系统将显示一份模型检查清单。请继续报告您在公开数据集上的结果。
- 我们将验证公开数据集上的结果,并计算私有数据集上的指标。
- 确认我们获得的结果。
在等待模型被添加至 Open ASR Leaderboard 的同时,您可以通过在模型卡片中添加类似此文件的 YAML 文件,自行报告公开数据集上的指标。您的模型将出现在数据集页面上的(未经验证)排行榜中(见下图)。有关这种去中心化评估方法的更多信息,请参阅此处。

在数据提供方数据上训练的模型是否具有优势?
可能存在优势。我们已要求 Appen 和 DataoceanAI 不向其客户提供这些数据。但即使未提供完全相同的数据,来自相似分布的数据仍可能帮助模型在对应评估集上表现更好(类似于通过优化公开数据集中的挑战性任务进行 benchmaxxing)。为此,引入多个数据提供方有助于平衡模型因使用某一提供方数据而获得的优势。我们也欢迎更多数据提供方和评估集加入“私有数据”标签页!
此外,为确保私有数据集不影响模型排名,我们默认将平均 WER 排除在宏观平均之外。
在下图中,您可以看到“私有数据”开关处于关闭状态,这意味着宏观平均不包含这些数据集。

只需开启“私有数据”开关,即可将其纳入宏观平均。

“排名变化 (Rank Δ)” 列显示了相对于默认宏观平均配置的排序变化。包含或排除公开数据集同样会改变宏观平均,允许用户根据自身应用场景和数据分布定制评估方式。
下一步是什么?
我们非常期待社区对新推出的评估轨迹和数据集切换功能的反馈,这些功能如何帮助用户识别模型在不同场景下的真实表现与局限。