标签噪声下的模型评估：如何准确评估AI模型的真实性能，提高模型性能测量的可信度-阿里云开发者社区

标签噪声下的模型评估：如何准确评估AI模型的真实性能，提高模型性能测量的可信度

2025-04-02 252

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文探讨了测试数据标签错误对模型性能评估的影响，分析了如何估计模型的“真实”准确率。通过图像分类案例，揭示了标签噪声与模型性能间的复杂关系。当模型错误与标签错误独立时，真实准确率通常高于测量值；但实际中两者常相关，导致真实准确率更接近下限。文章提出通过深入错误分析、评估相关性和多标注等方式优化性能评估，强调理解这些关系对提升模型可信度的重要性。

真实标签的不完美性是机器学习领域一个不可避免的挑战。从科学测量数据到深度学习模型训练中的人工标注，真实标签总是包含一定比例的错误。即使像ImageNet这样精心策划的图像数据集，其人工标注的错误率仍达0.3%。在这种情况下，如何准确评估预测模型的性能就成为一个关键问题。
本文将深入探讨如何在考虑测试数据标签错误的前提下，估计模型的"真实"准确率，并分析标签噪声与模型性能评估之间的复杂关系。

图1 模型的"真实"准确率作为其报告准确率和真实标签准确率的函数。

基于图像分类的案例分析

考虑一个包含100张猫狗图片的数据集，这些图片由准确率为96%的人工标注者标记(Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ)。若我们利用部分数据训练一个图像分类器，并在验证集上测得90%的准确率(Aᵐᵒᵈᵉˡ)，那么该模型的"真实"准确率(Aᵗʳᵘᵉ)究竟是多少？这个问题需要从以下两个方面进行分析：

在模型"正确"预测的90%样本中，部分可能因标签错误而导致模型与标签恰好都出错。这种情况会人为地提高测量的准确率。
在模型"错误"预测的10%样本中，部分可能是模型实际正确但真实标签错误的情况。这又会人为地降低测量的准确率。

真实准确率的理论边界

图2 模型在标签错误完全相关与完全不相关两种极端情况下的真实准确率对比。

模型的真实准确率与其错误和真实标签错误之间的相关性密切相关。在极端情况下：

若模型错误与真实标签错误完全重叠（即模型犯错的方式与人工标注者完全一致），则真实准确率为：

Aᵗʳᵘᵉ = 0.90 — (1–0.96) = 86%

若模型错误与人工标注者的错误完全相反（完全负相关），则真实准确率为：

Aᵗʳᵘᵉ = 0.90 + (1–0.96) = 94%

更一般地表示为：

Aᵗʳᵘᵉ = Aᵐᵒᵈᵉˡ ± (1 — Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ)

值得注意的是，模型的真实准确率可能高于或低于其报告的准确率，取决于模型错误与真实标签错误之间的相关性程度。

基于概率独立性的真实准确率估计

在某些情况下，标签中的不准确性随机分布于样本中，而非系统性地偏向特定标签或特征空间区域。若模型的不准确性与标签的不准确性相互独立，则可以导出真实准确率的更精确估计。

当我们测量Aᵐᵒᵈᵉˡ（90%）时，实际计算的是模型预测与真实标签匹配的情况。这种匹配可能源于两种情况：

模型和真实标签都正确，概率为Aᵗʳᵘᵉ × Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ。
模型和真实标签都错误（且以相同方式错误），概率为(1 — Aᵗʳᵘᵉ) × (1 — Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ)。

基于独立性假设，可以表示为：

Aᵐᵒᵈᵉˡ = Aᵗʳᵘᵉ × Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ + (1 — Aᵗʳᵘᵉ) × (1 — Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ)

对上式进行数学变换，得到：

Aᵗʳᵘᵉ = (Aᵐᵒᵈᵉˡ + Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ — 1) / (2 × Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ — 1)

将示例中的数值代入：(0.90 + 0.96–1) / (2 × 0.96–1) = 93.5%，这个结果位于前面推导的86%到94%范围内。

独立性假设的悖论

将我们例子中的Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ=0.96代入，得到：

Aᵗʳᵘᵉ = (Aᵐᵒᵈᵉˡ — 0.04) / (0.92)。下图展示了这个函数关系：

图3 当真实标签准确率为96%时，真实准确率作为模型报告准确率的函数关系。

这里出现了一个有趣的现象：假设模型错误与真实标签错误不相关，当报告的准确率Aᵐᵒᵈᵉˡ>0.5时，真实准确率Aᵗʳᵘᵉ始终高于1:1直线。即使改变Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ值，这一特性仍然成立：

为何会出现这种情况？当错误是独立的，且Aᵐᵒᵈᵉˡ>0.5时，模型倾向于在部分真实标签错误的样本上做出正确预测。我们推导的Aᵗʳᵘᵉ表达式考虑了两种情况：

模型被不公平惩罚的情况（标签错误但模型正确）
模型不公平获益的情况（标签错误且模型也错误）

当Aᵐᵒᵈᵉˡ>0.5且Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ>0.5时，在错误真正独立的条件下，第一种影响通常超过第二种。

错误相关性：模型与人类共同面临的挑战

独立性假设虽然在理论上重要，但在实践中往往不成立。例如，若某些猫的图像特别模糊，或某些小狗外形酷似猫，那么真实标签错误与模型错误很可能呈现相关性。这导致Aᵗʳᵘᵉ更接近下限(Aᵐᵒᵈᵉˡ — (1 — Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ))。

更广泛地说，模型错误与真实标签错误在以下情况下倾向于相关：

人类和模型在相同的"困难"样本上遇到挑战（如低质量图像、边界案例）
模型学习了人类标记过程中存在的相同偏见
某些类别或样本本质上对任何分类器（无论人类还是机器）都具有固有的困难性
标签本身由另一个模型生成

评估模型准确率的最佳实践

模型的真实准确率可能与测量准确率存在显著差异。理解这种差异对于正确评估模型至关重要，尤其在获取完美真实标签不可行或成本过高的领域。

在使用不完美真实标签评估模型性能时，应考虑以下策略：

进行深入的错误分析：仔细检查模型与真实标签不一致的样本，以识别潜在的真实标签错误。
评估错误相关性：若怀疑模型和真实标签错误之间存在相关性，真实准确率可能更接近下限(Aᵐᵒᵈᵉˡ — (1 — Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ))。
获取多个独立标注：采用多个标注者可以帮助更可靠地估计真实标签准确率。

总结

通过本文的分析，我们深入探讨了标签噪声对模型性能评估的影响。我们得出几项关键结论：可能的真实准确率范围直接受真实标签错误率的影响；当模型错误与标签错误相互独立时，对于性能优于随机猜测的模型，其真实准确率通常高于测量值；然而在实际应用场景中，错误很少完全独立，因此模型的真实准确率往往更接近理论下限。理解这些关系对于正确评估模型性能和提高性能测量的可信度至关重要。

https://avoid.overfit.cn/post/00a93d3dd60545ee9eb9f96da59d0f58

作者：Krishna Rao