【机器学习】训练集,测试集,为啥还要验证集?

简介:

机器学习为什么要有验证集

1 为什么要有测试集

要知道一个模型在新样本中的效果,唯一的办法就是使用新的数据进行试验。

一种方法是将模型直接部署到生产环境,测试它的性能。但是如果模型的性能很差,这么做就会引起用户抱怨 ,所以这不是最好的方法。

更好的选项是将你的数据分成两个集合:

  • 训练集 (training set)
  • 测试集 (test set)

正如它们的名字,用训练集进行训练,用测试集进行测试。对新样本的错误率称作泛化错误(generalization error)样本外错误(out-of-sample error),通过测试集对模型评估,你可以估计模型的错误率。这个值可以告诉你,你的模型对新样本的性能,即泛化能力

提示:一般将总数据的80%用作训练,20%用作测试。

那么,为什么还需要验证集呢?
在讨论这个问题之前,我们先来看一下什么是过拟合、正则化以及超参数。

2 过拟合、正则化和超参数

如果训练错误率低(即,你的模型在训练集上错误不多),但泛化到新数据时错误率高,意味着模型对训练数据过拟合overfitting

过拟合发生的主要原因为:训练数据量不足但模型太复杂参数过多,拟合能力太强。因此解决过拟合的方法可以是:使用更简单的模型或减少模型参数(或限制模型参数变化范围)从而简化模型。

机器学习中用于限制模型参数范围从而避免过拟合的方法称为正则化regularization。而正则化的程度则用一个超参数hyperparameter控制。

3 为什么要用验证集?

评估一个模型很简单:只要使用测试集。现在假设你在两个模型之间犹豫不决(比如一个线性模型和一个多项式模型):如何做决定呢?一种方法是两个都训练,然后比较在测试集上的效果。

现在假设线性模型的效果更好,但是你想做一些正则化以避免过拟合。问题是:如何选择正则化超参数的值?一种选项是用 100 个不同的超参数训练100个不同的模型。

假设你发现最佳的超参数的泛化到新数据的错误率最低,比如只有 5%。然后就选用这个模型作为生产环境,但是实际中性能不佳,误差率达到了 15%。为什么呢?
答案在于,你调整超参数是针对测试集的,你在测试集上多次测量了泛化误差率,然后根据误差调整模型和超参数,这使得你认为的最佳超参数可能只是适合这个测试集。这意味着模型在实际使用时对于新的数据的性能不会高。

这个问题通常的解决方案是,再保留一个集合,称作验证集合 validation set。用训练集和多个超参数对模型进行训练,选择在验证集上有最佳性能的模型和超参数。当你对模型满意时,用测试集再做最后一次测试,以得到泛化误差率的预估。

为了避免“浪费”过多训练数据在验证集上,通常的办法是使用交叉验证cross-validation:训练集分成互补的子集,每个模型用随机的几个不同子集合并训练,再用剩下的子集验证。不断调整超参数和模型类型训练并用验证集测试,直到确定模型类型和超参数。最终的模型再使用最佳超参数和全部的训练集进行训练,用测试集得到泛化误差率。

最后,谈一谈一个定理——No Free Lunch Theorem

4 没有免费的午餐定理(No Free Lunch Theorem)

如果完全不对数据做假设,就没有理由选择一个模型而不选另一个。这称作没有免费午餐(NFL)定理
也就是说,没有对数据进行假设,你就不能说哪个模型是最适合这些数据的。

模型是训练数据的简化版本。简化意味着舍弃没有泛化泛化能力的多余的细节。而要确定舍弃什么数据、保留什么数据,必须要做假设。例如,线性模型的假设是数据基本上是线性的,实例样本和线性模型直线间的距离只是噪声,可以放心忽略。

在一篇 1996 年的著名论文( “The Lack of A Priori Distinctions Between Learning Algorithms,” D. Wolperts (1996))中,David Wolpert 证明,如果完全不对数据做假设,就没有理由选择一个模型而不选另一个。这称作没有免费午餐(NFL)定理

对于一些数据集,最佳模型是线性模型,而对一些数据集最佳模型则是神经网络。没有一个模型在使用之前就可以保证效果更好(如这个公理的名字所示)。确定哪一个模型是否最佳的唯一方法就是测试所有的模型。但是这是不可能的,所以实际中就必须要做一些对数据合理的假设,只评估几个合理的模型。

例如,对于简单任务(假设它简单),你可能是用不同程度的正则化评估线性模型,对于复杂问题(假设它复杂),你可能要评估几个神经网络模型。

参考:
Hands-On Machine Learning with Scikit-Learn and TensorFlow
作者:Aurélien Géron
相关文章
|
1月前
|
机器学习/深度学习 JSON 算法
实例分割笔记(一): 使用YOLOv5-Seg对图像进行分割检测完整版(从自定义数据集到测试验证的完整流程)
本文详细介绍了使用YOLOv5-Seg模型进行图像分割的完整流程,包括图像分割的基础知识、YOLOv5-Seg模型的特点、环境搭建、数据集准备、模型训练、验证、测试以及评价指标。通过实例代码,指导读者从自定义数据集开始,直至模型的测试验证,适合深度学习领域的研究者和开发者参考。
381 3
实例分割笔记(一): 使用YOLOv5-Seg对图像进行分割检测完整版(从自定义数据集到测试验证的完整流程)
|
1月前
|
机器学习/深度学习 编解码 监控
目标检测实战(六): 使用YOLOv8完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
这篇文章详细介绍了如何使用YOLOv8进行目标检测任务,包括环境搭建、数据准备、模型训练、验证测试以及模型转换等完整流程。
1195 1
目标检测实战(六): 使用YOLOv8完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
|
18天前
|
机器学习/深度学习 数据采集 人工智能
浅谈机器学习,聊聊训练过程,就酱!
本故事讲的是关于机器学习的基本概念和训练过程。通过这个故事,你将对机器学习有一个直观的了解。随后,当你翻阅关于机器学习的书籍时,也许会有不同的感受。如果你有感觉到任督二脉被打通了,那我真是太高兴了。如果没有,我再努努力 ヘ(・_|
35 0
浅谈机器学习,聊聊训练过程,就酱!
|
1月前
|
机器学习/深度学习 监控 计算机视觉
目标检测实战(八): 使用YOLOv7完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
本文介绍了如何使用YOLOv7进行目标检测,包括环境搭建、数据集准备、模型训练、验证、测试以及常见错误的解决方法。YOLOv7以其高效性能和准确率在目标检测领域受到关注,适用于自动驾驶、安防监控等场景。文中提供了源码和论文链接,以及详细的步骤说明,适合深度学习实践者参考。
311 0
目标检测实战(八): 使用YOLOv7完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
|
1月前
|
机器学习/深度学习 并行计算 数据可视化
目标分类笔记(二): 利用PaddleClas的框架来完成多标签分类任务(从数据准备到训练测试部署的完整流程)
这篇文章介绍了如何使用PaddleClas框架完成多标签分类任务,包括数据准备、环境搭建、模型训练、预测、评估等完整流程。
84 0
目标分类笔记(二): 利用PaddleClas的框架来完成多标签分类任务(从数据准备到训练测试部署的完整流程)
|
1月前
|
机器学习/深度学习 JSON 算法
语义分割笔记(二):DeepLab V3对图像进行分割(自定义数据集从零到一进行训练、验证和测试)
本文介绍了DeepLab V3在语义分割中的应用,包括数据集准备、模型训练、测试和评估,提供了代码和资源链接。
185 0
语义分割笔记(二):DeepLab V3对图像进行分割(自定义数据集从零到一进行训练、验证和测试)
|
1月前
|
机器学习/深度学习 数据采集 算法
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
这篇博客文章介绍了如何使用包含多个网络和多种训练策略的框架来完成多目标分类任务,涵盖了从数据准备到训练、测试和部署的完整流程,并提供了相关代码和配置文件。
46 0
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
|
1月前
|
机器学习/深度学习 XML 并行计算
目标检测实战(七): 使用YOLOX完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
这篇文章介绍了如何使用YOLOX完成图像目标检测任务的完整流程,包括数据准备、模型训练、验证和测试。
153 0
目标检测实战(七): 使用YOLOX完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
|
1月前
|
机器学习/深度学习 算法 PyTorch
目标检测实战(五): 使用YOLOv5-7.0版本对图像进行目标检测完整版(从自定义数据集到测试验证的完整流程)
本文详细介绍了使用YOLOv5-7.0版本进行目标检测的完整流程,包括算法介绍、环境搭建、数据集准备、模型训练、验证、测试以及评价指标。YOLOv5以其高精度、快速度和模型小尺寸在计算机视觉领域受到广泛应用。
411 0
目标检测实战(五): 使用YOLOv5-7.0版本对图像进行目标检测完整版(从自定义数据集到测试验证的完整流程)
|
1月前
|
计算机视觉 异构计算
目标检测实战(四):YOLOV4-Tiny 源码训练、测试、验证详细步骤
这篇文章详细介绍了使用YOLOv4-Tiny进行目标检测的实战步骤,包括下载源码和权重文件、配置编译环境、进行简单测试、训练VOC数据集、生成训练文件、准备训练、开始训练以及多GPU训练的步骤。文章还提供了相应的代码示例,帮助读者理解和实践YOLOv4-Tiny模型的训练和测试过程。
113 0

热门文章

最新文章