【机器学习】训练集,测试集,为啥还要验证集?

简介:

机器学习为什么要有验证集

1 为什么要有测试集

要知道一个模型在新样本中的效果,唯一的办法就是使用新的数据进行试验。

一种方法是将模型直接部署到生产环境,测试它的性能。但是如果模型的性能很差,这么做就会引起用户抱怨 ,所以这不是最好的方法。

更好的选项是将你的数据分成两个集合:

  • 训练集 (training set)
  • 测试集 (test set)

正如它们的名字,用训练集进行训练,用测试集进行测试。对新样本的错误率称作泛化错误(generalization error)样本外错误(out-of-sample error),通过测试集对模型评估,你可以估计模型的错误率。这个值可以告诉你,你的模型对新样本的性能,即泛化能力

提示:一般将总数据的80%用作训练,20%用作测试。

那么,为什么还需要验证集呢?
在讨论这个问题之前,我们先来看一下什么是过拟合、正则化以及超参数。

2 过拟合、正则化和超参数

如果训练错误率低(即,你的模型在训练集上错误不多),但泛化到新数据时错误率高,意味着模型对训练数据过拟合overfitting

过拟合发生的主要原因为:训练数据量不足但模型太复杂参数过多,拟合能力太强。因此解决过拟合的方法可以是:使用更简单的模型或减少模型参数(或限制模型参数变化范围)从而简化模型。

机器学习中用于限制模型参数范围从而避免过拟合的方法称为正则化regularization。而正则化的程度则用一个超参数hyperparameter控制。

3 为什么要用验证集?

评估一个模型很简单:只要使用测试集。现在假设你在两个模型之间犹豫不决(比如一个线性模型和一个多项式模型):如何做决定呢?一种方法是两个都训练,然后比较在测试集上的效果。

现在假设线性模型的效果更好,但是你想做一些正则化以避免过拟合。问题是:如何选择正则化超参数的值?一种选项是用 100 个不同的超参数训练100个不同的模型。

假设你发现最佳的超参数的泛化到新数据的错误率最低,比如只有 5%。然后就选用这个模型作为生产环境,但是实际中性能不佳,误差率达到了 15%。为什么呢?
答案在于,你调整超参数是针对测试集的,你在测试集上多次测量了泛化误差率,然后根据误差调整模型和超参数,这使得你认为的最佳超参数可能只是适合这个测试集。这意味着模型在实际使用时对于新的数据的性能不会高。

这个问题通常的解决方案是,再保留一个集合,称作验证集合 validation set。用训练集和多个超参数对模型进行训练,选择在验证集上有最佳性能的模型和超参数。当你对模型满意时,用测试集再做最后一次测试,以得到泛化误差率的预估。

为了避免“浪费”过多训练数据在验证集上,通常的办法是使用交叉验证cross-validation:训练集分成互补的子集,每个模型用随机的几个不同子集合并训练,再用剩下的子集验证。不断调整超参数和模型类型训练并用验证集测试,直到确定模型类型和超参数。最终的模型再使用最佳超参数和全部的训练集进行训练,用测试集得到泛化误差率。

最后,谈一谈一个定理——No Free Lunch Theorem

4 没有免费的午餐定理(No Free Lunch Theorem)

如果完全不对数据做假设,就没有理由选择一个模型而不选另一个。这称作没有免费午餐(NFL)定理
也就是说,没有对数据进行假设,你就不能说哪个模型是最适合这些数据的。

模型是训练数据的简化版本。简化意味着舍弃没有泛化泛化能力的多余的细节。而要确定舍弃什么数据、保留什么数据,必须要做假设。例如,线性模型的假设是数据基本上是线性的,实例样本和线性模型直线间的距离只是噪声,可以放心忽略。

在一篇 1996 年的著名论文( “The Lack of A Priori Distinctions Between Learning Algorithms,” D. Wolperts (1996))中,David Wolpert 证明,如果完全不对数据做假设,就没有理由选择一个模型而不选另一个。这称作没有免费午餐(NFL)定理

对于一些数据集,最佳模型是线性模型,而对一些数据集最佳模型则是神经网络。没有一个模型在使用之前就可以保证效果更好(如这个公理的名字所示)。确定哪一个模型是否最佳的唯一方法就是测试所有的模型。但是这是不可能的,所以实际中就必须要做一些对数据合理的假设,只评估几个合理的模型。

例如,对于简单任务(假设它简单),你可能是用不同程度的正则化评估线性模型,对于复杂问题(假设它复杂),你可能要评估几个神经网络模型。

参考:
Hands-On Machine Learning with Scikit-Learn and TensorFlow
作者:Aurélien Géron
相关文章
|
机器学习/深度学习 人工智能 JSON
【解决方案】DistilQwen2.5-R1蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对DistilQwen2.5-R1模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过 PAI-ModelGallery 轻松实现 Qwen2.5 系列模型的训练、评测、压缩和快速部署。本文详细介绍在 PAI 平台使用 DistilQwen2.5-R1 蒸馏模型的全链路最佳实践。
|
人工智能 JSON 算法
【解决方案】DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。本文详细介绍DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践。
|
9月前
|
测试技术 UED 开发者
性能测试报告-用于项目的性能验证、性能调优、发现性能缺陷等应用场景
性能测试报告用于评估系统性能、稳定性和安全性,涵盖测试环境、方法、指标分析及缺陷优化建议,是保障软件质量与用户体验的关键文档。
|
10月前
|
机器学习/深度学习 存储 分布式计算
Java 大视界 --Java 大数据机器学习模型在金融风险压力测试中的应用与验证(211)
本文探讨了Java大数据与机器学习模型在金融风险压力测试中的创新应用。通过多源数据采集、模型构建与优化,结合随机森林、LSTM等算法,实现信用风险动态评估、市场极端场景模拟与操作风险预警。案例分析展示了花旗银行与蚂蚁集团的智能风控实践,验证了技术在提升风险识别效率与降低金融风险损失方面的显著成效。
|
10月前
|
机器学习/深度学习 自然语言处理 算法
Java 大视界 -- Java 大数据机器学习模型在自然语言处理中的对抗训练与鲁棒性提升(205)
本文探讨Java大数据与机器学习在自然语言处理中的对抗训练与鲁棒性提升,分析对抗攻击原理,结合Java技术构建对抗样本、优化训练策略,并通过智能客服等案例展示实际应用效果。
|
人工智能 自然语言处理 算法
MT-MegatronLM:国产训练框架逆袭!三合一并行+FP8黑科技,大模型训练效率暴涨200%
MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架,支持多种模型架构和高效混合并行训练,显著提升 GPU 集群的算力利用率。
1056 18
|
机器学习/深度学习 人工智能 边缘计算
DistilQwen2.5蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen2.5 是阿里云人工智能平台 PAI 推出的全新蒸馏大语言模型系列。通过黑盒化和白盒化蒸馏结合的自研蒸馏链路,DistilQwen2.5各个尺寸的模型在多个基准测试数据集上比原始 Qwen2.5 模型有明显效果提升。这一系列模型在移动设备、边缘计算等资源受限的环境中具有更高的性能,在较小参数规模下,显著降低了所需的计算资源和推理时长。阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对 DistilQwen2.5 模型系列提供了全面的技术支持。本文详细介绍在 PAI 平台使用 DistilQwen2.5 蒸馏小模型的全链路最佳实践。
|
Oracle 关系型数据库 MySQL
使用崖山YMP 迁移 Oracle/MySQL 至YashanDB 23.2 验证测试
这篇文章是作者尚雷关于使用崖山YMP迁移Oracle/MySQL至YashanDB 23.2的验证测试分享。介绍了YMP的产品信息,包括架构、版本支持等,还详细阐述了外置库部署、YMP部署、访问YMP、数据源管理、任务管理(创建任务、迁移配置、离线迁移、校验初始化、一致性校验)及MySQL迁移的全过程。
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
362 0
|
数据可视化 前端开发 测试技术
接口测试新选择:Postman替代方案全解析
在软件开发中,接口测试工具至关重要。Postman长期占据主导地位,但随着国产工具的崛起,越来越多开发者转向更适合中国市场的替代方案——Apifox。它不仅支持中英文切换、完全免费不限人数,还具备强大的可视化操作、自动生成文档和API调试功能,极大简化了开发流程。