机器学习之Validation(验证,模型选择)

简介:   对于机器学习的模型选择来说,即使只是对于二元分类,我们已经学习了很多方法,比如PLA,LR等;很多学习算法都是可迭代的,需要决定迭代次数;你可能还需要决定每一次迭代走多大,例如梯度下降;或者有很多的转换可以选择,例如线性、二次等;同时规则化又有很多的选择L1,L2;再来规则化到底要加多强的λ\lambda。

  对于机器学习的模型选择来说,即使只是对于二元分类,我们已经学习了很多方法,比如PLA,LR等;很多学习算法都是可迭代的,需要决定迭代次数;你可能还需要决定每一次迭代走多大,例如梯度下降;或者有很多的转换可以选择,例如线性、二次等;同时规则化又有很多的选择L1,L2;再来规则化到底要加多强的λ。况且这些选择是组合起来的,某种程度上来说是组合爆炸的,那么我们怎么做出正确的选择?

这里写图片描述

这里写图片描述

  那么对于以上两个模型,你会选择哪一个模型呢?也许你会说,可以根据自己视觉上的判断来选择模型,但是我们必须注意到,当选择的模型不是二元的,而是多元的时候,我们就不能通过视觉上的判断来选择了。还有一点,如果通过视觉上的判断来选择,我们就必须考虑到自己脑袋里那个强大的VC维模型,那么我们就不见得有多大的好处。

  如果以上方法不行的话 ,那我们是不是可以选一个Ein最小的方法呢?

  我们可以把待选择的模型跑在我们的资料上,那么我们就可以通过选择Ein最小的模型来完成机器学习。

这里写图片描述

  那么,这么做有什么问题呢?

  首先,我们可以想象,在这样的设定之下,我们肯定会选择复杂度很高的模型,以减小Ein,就会可能造成overfitting(过拟合)。

  其次,这样选择模型,相当于在1班中选择一个最好的学生s1,在2班中选择一个最好的学生s2,然后再选择出s1和s2中相对较好的学生。这无疑增加了模型复杂度。

这里写图片描述

  那我们可不可以通过选一个Etest最小的方法呢?通过一个测试集来判断Etest的大小,从而选出较好的模型?

这里写图片描述

  看起来这是一个很好的方法。但是问题是我们能找到测试资料吗?这就好像测试考试,在正式考试之前,你会得到考卷吗?


  我们今天是要找到一个中间方式,就是把一部分资料先拿出来当作测试资料,以保证测试资料不被污染,当要进行验证时,再把这部分资料拿出来进行测试!

  我们选出K个数据用来进行验证,这K个数据的误差记作Eval,称为验证误差,那么剩下的N-K个数据用来训练模型,记作Dtrain

这里写图片描述

  一般来说,K的值大约为整个数据集数量的五分之一。

K=N5

机器学习系列之机器学习之Logistic回归(逻辑蒂斯回归)

相关文章
|
1天前
|
机器学习/深度学习 数据采集 监控
构建高效机器学习模型的最佳实践
【5月更文挑战第16天】 在数据驱动的时代,机器学习已成为创新的核心推动力。本文将深入探讨如何构建一个高效的机器学习模型,包括数据预处理、特征选择、模型训练与优化等关键步骤。通过实例分析和技术讲解,旨在为读者提供一套实用的技术指导和最佳实践方法,以支持其在复杂数据环境中实现准确预测和智能决策。
|
2天前
|
机器学习/深度学习 人工智能 算法
为什么大模型训练需要GPU,以及适合训练大模型的GPU介绍
为什么大模型训练需要GPU,以及适合训练大模型的GPU介绍
19 0
|
2天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型:从数据预处理到模型优化
【5月更文挑战第14天】 在机器学习项目中,模型的性能不仅取决于算法的选择,还受到数据处理和模型配置的影响。本文将探讨如何通过有效的数据预处理和细致的模型调优来提升机器学习模型的效能。我们将讨论数据清洗、特征工程、以及超参数调整等关键步骤,并通过实例展示这些技术如何实现在不同类型的数据集上。目标是为读者提供一套实用的策略,以帮助他们在面对实际问题时能够构建出更加健壮和精确的机器学习模型。
|
2天前
|
机器学习/深度学习 BI
机器学习模型评估指标总结
机器学习模型评估指标总结
9 2
|
2天前
|
机器学习/深度学习 监控 算法
构建高效机器学习模型的五大技巧
【5月更文挑战第13天】 在数据科学领域,机器学习模型的性能往往决定了项目成功与否。本文将深入探讨提升机器学习模型效率和准确度的五个关键技巧。这些技巧包括数据处理优化、特征工程精炼、算法选择与调整、模型集成以及持续监控与调优。文章将结合实例分析每个技巧的实施过程及其对模型性能的影响。通过这些策略,读者可以构建出更加健壮、高效的机器学习模型,并为未来的项目提供实用的技术参考。
|
2天前
|
机器学习/深度学习 监控 算法
LabVIEW使用机器学习分类模型探索基于技能课程的学习
LabVIEW使用机器学习分类模型探索基于技能课程的学习
11 1
|
2天前
|
机器学习/深度学习 数据采集
构建高效机器学习模型的最佳实践
【5月更文挑战第11天】 在数据驱动的时代背景下,机器学习已经成为企业与研究者解决复杂问题的重要工具。本文将探讨构建高效机器学习模型的关键步骤,包括数据预处理、特征工程、模型选择与调参、以及性能评估。我们将深入分析这些步骤的重要性,并提供实用的技巧和最佳实践,以助读者提高模型的预测能力与泛化性能。通过案例分析和经验总结,本文旨在为从业者提供一套系统的方法论,帮助他们在面对各种机器学习项目时能够更有效地设计和实现解决方案。
6 0
|
2天前
|
机器学习/深度学习 存储 算法
【机器学习】使用贝叶斯模型做分类时,可能会碰到什么问题?怎么解决?
【5月更文挑战第11天】【机器学习】使用贝叶斯模型做分类时,可能会碰到什么问题?怎么解决?
|
2天前
|
机器学习/深度学习
【机器学习】噪声数据对贝叶斯模型有什么样的影响?
【5月更文挑战第10天】【机器学习】噪声数据对贝叶斯模型有什么样的影响?
|
2天前
|
机器学习/深度学习 数据处理
【机器学习】生成式模型与判别式模型有什么区别?
【5月更文挑战第10天】【机器学习】生成式模型与判别式模型有什么区别?

热门文章

最新文章