神经网络与深度学习---验证集（测试集）准确率高于训练集准确率的原因-阿里云开发者社区

神经网络与深度学习---验证集（测试集）准确率高于训练集准确率的原因

2022-03-24 4024

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 神经网络与深度学习---验证集（测试集）准确率高于训练集准确率的原因

1.数据集太小，这样会导致数据集切分的时候不均匀，也就是说训练集和测试集的分布不均匀，如果模型能够正确地捕捉到数据内部的分布模式的话，就有可能造成训练集的内部方差大于验证集，会造成训练集的误差更大，这个时候就需要重新划分数据集，使其分布一样。

2.模型正则化过多，比如训练时dropout过多，和验证时的模型相差较大，验证时是不会有dropout的。

Dropout能基本上确保测试集的准确性最好，优于训练集的准确性。Dropout迫使神经网络成为一个非常大的弱分类器集合，这就意味着，一个单独的分类器没有太高的分类准确性，只有当把他们串在一起的时候他们才会变得更强大。

而且在训练期间，Dropout将这些分类器的随机集合切掉，因此，训练准确率将受到影响；在测试期间，Dropout将自动关闭，并允许使用神经网络中的所有弱分类器，因此，测试精度提高。

3.训练集的准确率是每个batch之后产生的，而验证集的准确率一般是一个epoch后产生的，验证时的模型是训练一个个batch之后的，有一个滞后性，可以说就是用训练得差不多的模型用来验证，当然准确率要高一点。

4.训练集的数据做了一系列的预处理，如旋转、仿射、模糊、添加噪点等操作，过多的预处理导致训练集的分布产生了变化，所以使得训练集的准确率低于验证集

神经网络与深度学习---验证集（测试集）准确率高于训练集准确率的原因