机器学习为什么要有验证集
1 为什么要有测试集
要知道一个模型在新样本中的效果,唯一的办法就是使用新的数据进行试验。
一种方法是将模型直接部署到生产环境,测试它的性能。但是如果模型的性能很差,这么做就会引起用户抱怨 ,所以这不是最好的方法。
更好的选项是将你的数据分成两个集合:
- 训练集 (training set)
- 测试集 (test set)
正如它们的名字,用训练集进行训练,用测试集进行测试。对新样本的错误率称作泛化错误(generalization error)
或样本外错误(out-of-sample error)
,通过测试集对模型评估,你可以估计模型的错误率。这个值可以告诉你,你的模型对新样本的性能,即泛化能力
。
提示:一般将总数据的80%用作训练,20%用作测试。
那么,为什么还需要验证集呢?
在讨论这个问题之前,我们先来看一下什么是过拟合、正则化以及超参数。
2 过拟合、正则化和超参数
如果训练错误率低(即,你的模型在训练集上错误不多),但泛化到新数据时错误率高,意味着模型对训练数据过拟合overfitting
。
过拟合发生的主要原因为:训练数据量不足但模型太复杂参数过多,拟合能力太强。因此解决过拟合的方法可以是:使用更简单的模型或减少模型参数(或限制模型参数变化范围)从而简化模型。
机器学习中用于限制模型参数范围从而避免过拟合的方法称为正则化regularization
。而正则化的程度则用一个超参数hyperparameter
控制。
3 为什么要用验证集?
评估一个模型很简单:只要使用测试集。现在假设你在两个模型之间犹豫不决(比如一个线性模型和一个多项式模型):如何做决定呢?一种方法是两个都训练,然后比较在测试集上的效果。
现在假设线性模型的效果更好,但是你想做一些正则化以避免过拟合。问题是:如何选择正则化超参数的值?一种选项是用 100 个不同的超参数训练100个不同的模型。
假设你发现最佳的超参数的泛化到新数据的错误率最低,比如只有 5%。然后就选用这个模型作为生产环境,但是实际中性能不佳,误差率达到了 15%。为什么呢?
答案在于,你调整超参数是针对测试集的,你在测试集上多次测量了泛化误差率,然后根据误差调整模型和超参数,这使得你认为的最佳超参数可能只是适合这个测试集。这意味着模型在实际使用时对于新的数据的性能不会高。
这个问题通常的解决方案是,再保留一个集合,称作验证集合 validation set
。用训练集和多个超参数对模型进行训练,选择在验证集上有最佳性能的模型和超参数。当你对模型满意时,用测试集再做最后一次测试,以得到泛化误差率的预估。
为了避免“浪费”过多训练数据在验证集上,通常的办法是使用交叉验证cross-validation
:训练集分成互补的子集,每个模型用随机的几个不同子集合并训练,再用剩下的子集验证。不断调整超参数和模型类型训练并用验证集测试,直到确定模型类型和超参数。最终的模型再使用最佳超参数和全部的训练集进行训练,用测试集得到泛化误差率。
最后,谈一谈一个定理——No Free Lunch Theorem
4 没有免费的午餐定理(No Free Lunch Theorem)
如果完全不对数据做假设,就没有理由选择一个模型而不选另一个。这称作没有免费午餐(NFL)定理
也就是说,没有对数据进行假设,你就不能说哪个模型是最适合这些数据的。
模型是训练数据的简化版本。简化意味着舍弃没有泛化泛化能力的多余的细节。而要确定舍弃什么数据、保留什么数据,必须要做假设。例如,线性模型的假设是数据基本上是线性的,实例样本和线性模型直线间的距离只是噪声,可以放心忽略。
在一篇 1996 年的著名论文( “The Lack of A Priori Distinctions Between Learning Algorithms,” D. Wolperts (1996))中,David Wolpert 证明,如果完全不对数据做假设,就没有理由选择一个模型而不选另一个。这称作没有免费午餐(NFL)定理。
对于一些数据集,最佳模型是线性模型,而对一些数据集最佳模型则是神经网络。没有一个模型在使用之前就可以保证效果更好(如这个公理的名字所示)。确定哪一个模型是否最佳的唯一方法就是测试所有的模型。但是这是不可能的,所以实际中就必须要做一些对数据合理的假设,只评估几个合理的模型。
例如,对于简单任务(假设它简单),你可能是用不同程度的正则化评估线性模型,对于复杂问题(假设它复杂),你可能要评估几个神经网络模型。
参考:
Hands-On Machine Learning with Scikit-Learn and TensorFlow
作者:Aurélien Géron