你的机器学习模型为什么会出错?奉上四大原因解析及五条改进措施

简介:

你的机器学习模型为什么会出错?奉上四大原因解析及五条改进措施

对开发者来说,目前有一系列的机器学习模型可供选择。雷锋网(公众号:雷锋网)了解,可以用线性回归模型预测具体的数值,用逻辑回归模型对不同的运算结果进行归类,以及用神经网络模型处理非线性的问题等等。

不论哪一种,当模型选定之后,下一步就是利用大量的现有数据对相关的机器学习算法进行训练,探究既定的输入数据和预想的输出结果之间的内在关系。但这时可能会出现一种情况:训练结果能够成功应用于原始输入和输出,可一旦有新的数据输入就不行了。

或者说得更直白一点,应该怎样评估一个机器学习模型是否真的行之有效呢?雷锋网从偏差、方差、正确率和查全率等四个方面对这一问题展开了探讨,并给出五条改进措施。

  高偏差或高方差(High Bias or High Variance)

你的机器学习模型为什么会出错?奉上四大原因解析及五条改进措施

当我们评估一个机器学习模型时,首先要做的一件事就是:搞清楚这个模型的偏差和方差是否太大。

高偏差:如上图1所示,所谓高偏差就是指在取样点上模型的实际输出和预想输出不匹配,而且相差很远。出现这一问题的原因是模型并没有准确表征既定输入和预想输出之间的关系,从而造成输出结果的高错误率。

高方差:这种情况与高偏差的情况正好相反。在这一场景中,所有的取样点结果都与预期结果完全相符。看起来模型的工作状态完全正常,但其实隐藏着问题。这样的情况往往容易被忽视,就好像上文提到的,模型能够成功应用于原始输入和输出,但一旦输入新数据,结果就会漏洞百出。

那么问题来了,如何排查一个模型是否具有高偏差或者高方差呢?

一个最直接的办法就是对数据进行交叉验证。常见的交叉验证方法有很多,例如10折交叉验证、Holdout验证和留一验证等。但总体思路是一样的:拿出大部分的数据(例如70%)进行建模,留一小部分(例如30%)的数据作为样本,用刚刚建立的模型进行测试,并评估测试结果。持续进行这一过程,直到所有的样本数据都恰好被预测了一次为止。

经过交叉验证,就可以很方便地排查一个模型的偏差和方差情况。当建模数据和测试数据的输出结果都出现与预期结果的不匹配时,那就说明模型的偏差较大。反之,如果建模数据表现正常,而测试数据存在不匹配,那就说明模型的方差较大。同时,如果建模数据和测试数据的输出结果都与预期结果相匹配,那么就证明这一模型顺利通过了交叉验证,在偏差和方差之间找到了一个很好的平衡点。

不过,即使偏差和方差都表现正常,一个机器学习模型也不一定就能正常工作,因为还可能受到其他因素的影响,例如正确率和查全率。

  低正确率或低查全率(Low Precision or Low Recall)

你的机器学习模型为什么会出错?奉上四大原因解析及五条改进措施

这里可以用垃圾邮件筛选的例子来说明什么是正确率和查全率。在一般情况下,我们收到的大约99%的邮件都是正常邮件,而只有1%是垃圾邮件(这里不妨称“垃圾邮件”为正向判断,而“正常邮件”为反向判断,后续会用到)。而如果一个机器学习模型被以类似这样分布的数据进行训练,那么其训练结果很可能是:机器的判定结果有99%都是正确的,虽然正确率很高,但其中也一定漏掉了那1%的垃圾邮件(这显然不是我们想要的结果)。

在这种情况下,最适于利用正确率和查全率来评估一个模型是否真的行之有效。

如图所示,所谓正确率是指所有正向判断中,最终判断正确的比例。计算方法是用正向判断中正确的次数除以所有正向判断的次数。而查全率是指正向判断中正确的次数,占实际正向结果的比例。计算方法是用正向判断中正确的次数,除以正向判断中正确的次数与反向判断中错误的次数之和。

你的机器学习模型为什么会出错?奉上四大原因解析及五条改进措施

乍一看似乎有点拗口,这里用具体的数字解释一下。例如一个模型一共做了2次正向判断,其中1次是正确的,10次反向判断,其中8次是正确的。如果用邮件的例子来看,也就意味着系统一共收到了12封邮件,其中9封是正常邮件,3封是垃圾邮件。那么其正确率就是1/2=50%,而查全率就是1/3=33%。

可以看到,正确率反应了一个模型的预测准确度,而查全率反应了一个模型的实际应用效果。一个机器学习模型的设计目标应该是在正确率和查全率中找到一种平衡,一方面努力增加正向判断中正确的次数,一方面减小反向判断中错误的次数。

  五条改进措施

你的机器学习模型为什么会出错?奉上四大原因解析及五条改进措施

根据以上内容,在面对偏差和方差,正确率和查全率的相关问题时,有以下5点意见可供参考。

  1. 当模型出现高偏差时,尝试增加输入特征的个数。如上文讨论的,当建模数据和测试数据的输出结果都出现与预期结果的不匹配时,那就说明模型的偏差较大。根据一般的模型输入特征和预测错误之间的关系图表可以看出(如上图所示),随着输入特征的增加,偏差会显著减小。

  2.  反之,当模型出现高方差时(也即出现了过耦合),这时可以尝试减少输入特征的个数。从图表中也可以看出,当输入特征进一步增加时,虽然建模数据的错误会越来越少,但测试数据的错误会越来越多。因此,输入特征并不能无限制地增加,在高方差的情况下尝试减少输入特征的个数,可以找到二者之间的平衡。

  3.  另外,通过增加训练用例的个数也可以显著减少高方差的出现。因为随着测试用例的增加,模型的通用性也就越好,能应对更多变的数据,也即方差越小。

  4. 当正确率较低时,尝试增加概率阈值。如上图所示,划分正向判断和反向判断的概率阈值与正确率和查全率之间关系密切。随着阈值的增加,模型对正向的判断也就越保守,正确率也就越高。

  5. 反之,当出现较低的查全率时,可以尝试减小概率阈值。因为概率阈值的减小意味着模型会做出更多的正向判断,正向判断的次数多了,查全率就会跟着提升。

总之,经历的迭代和调试越多,就越可能找到偏差和方差、正确率和查全率之间的平衡,也就越可能找到一个行之有效的机器学习模型。

来源:kdnuggets ,由雷锋网编译

【兼职召集令!】

如果你对未来充满憧憬,喜欢探索改变世界的科技进展,look no further!

我们需要这样的你:

精通英语,对技术与产品感兴趣,关注人工智能学术动态的萝莉&萌妹子&技术宅;

文字不求妙笔生花,但希望通俗易懂;

在这里,你会收获:

一群来自天南地北、志同道合的小伙伴;

前沿学术科技动态,每天为自己充充电;

更高的生活品质,翻翻文章就能挣到零花钱;

有意向的小伙伴们把个人介绍/简历发至 guoyixin@leiphone.com,如有作品,欢迎一并附上。


本文作者:恒亮


本文转自雷锋网禁止二次转载,原文链接

相关文章
|
16天前
|
机器学习/深度学习 数据采集 人工智能
构建高效机器学习模型的五大技巧
【4月更文挑战第7天】 在数据科学迅猛发展的今天,机器学习已成为解决复杂问题的重要工具。然而,构建一个既精确又高效的机器学习模型并非易事。本文将分享五种提升机器学习模型性能的有效技巧,包括数据预处理、特征工程、模型选择、超参数调优以及交叉验证。这些方法不仅能帮助初学者快速提高模型准确度,也为经验丰富的数据科学家提供了进一步提升模型性能的思路。
|
21天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型的最佳实践
【4月更文挑战第3天】在数据驱动的时代,构建高效的机器学习模型已成为解决复杂问题的关键。本文将探讨一系列实用的技术策略,旨在提高模型的性能和泛化能力。我们将从数据预处理、特征工程、模型选择、超参数调优到集成学习等方面进行详细讨论,并通过实例分析展示如何在实践中应用这些策略。
16 1
|
25天前
|
存储 NoSQL 算法
【Redis技术进阶之路】「底层源码解析」揭秘高效存储模型与数据结构底层实现(字典)(二)
【Redis技术进阶之路】「底层源码解析」揭秘高效存储模型与数据结构底层实现(字典)
36 0
|
1天前
|
机器学习/深度学习 数据采集 人工智能
构建高效机器学习模型的最佳实践
【4月更文挑战第23天】在数据驱动的时代,机器学习已成为创新的核心动力。本文深入探讨了构建高效机器学习模型的关键步骤,包括数据预处理、特征工程、模型选择、训练技巧以及性能评估。通过实例分析与经验总结,旨在为从业者提供一套实用的技术指南,帮助他们在复杂数据环境中提升模型的准确性和泛化能力。
|
6天前
|
机器学习/深度学习 存储 算法
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
26 7
|
6天前
|
机器学习/深度学习 算法 数据处理
构建自定义机器学习模型:Scikit-learn的高级应用
【4月更文挑战第17天】本文探讨了如何利用Scikit-learn构建自定义机器学习模型,包括创建自定义估计器、使用管道集成数据处理和模型、深化特征工程以及调优与评估模型。通过继承`BaseEstimator`和相关Mixin类,用户可实现自定义算法。管道允许串联多个步骤,而特征工程涉及多项式特征和自定义变换。模型调优可借助交叉验证和参数搜索工具。掌握这些高级技巧能提升机器学习项目的效果和效率。
|
8天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型:从特征工程到模型调优
【4月更文挑战第16天】 在数据驱动的时代,机器学习已成为解决复杂问题的关键工具。本文旨在分享一套实用的技术流程,帮助读者构建高效的机器学习模型。我们将重点讨论特征工程的重要性、选择合适算法的策略,以及通过交叉验证和网格搜索进行模型调优的方法。文章的目标是为初学者提供一个清晰的指南,同时为有经验的实践者提供一些高级技巧。
|
8天前
|
机器学习/深度学习 人工智能 分布式计算
R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析
R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析
13 0
|
14天前
|
机器学习/深度学习 JavaScript 前端开发
机器学习模型部署:使用Python和Vue搭建用户友好的预测界面
【4月更文挑战第10天】本文介绍了如何使用Python和Vue.js构建机器学习模型预测界面。Python作为机器学习的首选语言,结合Vue.js的前端框架,能有效部署模型并提供直观的预测服务。步骤包括:1) 使用Python训练模型并保存;2) 创建Python后端应用提供API接口;3) 利用Vue CLI构建前端项目;4) 设计Vue组件实现用户界面;5) 前后端交互通过HTTP请求;6) 优化用户体验;7) 全面测试并部署。这种技术组合为机器学习模型的实用化提供了高效解决方案,未来有望更加智能和个性化。
|
18天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型:从数据预处理到模型优化
【4月更文挑战第6天】本文聚焦于机器学习模型的开发流程,旨在提供一套系统的方法论以构建出更高效的模型。我们将深入探讨数据预处理的重要性,特征工程的策略,以及如何通过交叉验证和超参数调优来提升模型性能。文章不仅涉及理论分析,还包括了实际案例的代码实现,为读者呈现一个从数据处理到模型部署的完整蓝图。
14 0

推荐镜像

更多