AI学习笔记——机器学习中误差分析的几个关键概念

简介: 在之前的文章中介绍了经典的机器学习算法,深度学习算法等等,但是在这些算法的应用中有几个非常关键又很容易混淆的概念必须要强调一下。1、数据分组机器学习的数据一般会分为 train(训练), development(验证) 和 test(测试) 三个组。

在之前的文章中介绍了经典的机器学习算法,深度学习算法等等,但是在这些算法的应用中有几个非常关键又很容易混淆的概念必须要强调一下。

1、数据分组

机器学习的数据一般会分为 train(训练), development(验证) 和 test(测试) 三个组。有时候可以将development 和 test 合并统称为dev/test set。

train 和 dev/test 在数据量较小的时候可以遵循70%和30%的分组原则,在数据量特别大的情况下dev/test 组比例可以减小。但最重要的是train 和 dev/test sets 的数据分布要尽可能一致。

2、Precision(准确率)和 Recall(召回率)

中文中“准确率”“精确率”经常混用来表示英文中的Precision 和 Accuracy ,然而这两个概念在数学上这两个词是不同的,为了避免歧义,这里统一用英文表达。Precison和Recall都有相应的数学公式,可以很容易google得到。在这里通过实例和图形直观理解这两个概念的含义。


img_79a3abdb125388968af2af300f951f91.png

如上图,比如在测试火灾报警器的性能的时候,左边淡绿色的方框是真实发生火灾的事件,右边方框是没有发生火灾的事件。左半边圆圈是发生火灾并报警的事件,右边圆圈是没有发生火灾而误报的情况。
如图所示,
Precision :所有报警的事件中真实发生火灾的比例。它的反义词更好理解就是误报率
Recall:所有发生火灾的事件中报警的比例。它的反义词更好理解就是漏报率

当然还有一个容易与Precision 混淆的概念,Accuracy (准确率)—就是所有正确报警的事件除以所有事件,错误率(Error)就是准确率的反义词。

Precision 和 Recall 是两个矛盾的参数,这个也很好理解,提高报警器的敏感度必然会减少漏报率,但是同时误报率也会增加。所以在评价一个模型的好坏的时候,往往这两个参数都要考虑,当然也有F1参数将Precision和Recall 统一起来了。

3、Bias(方差) 和 Variance(偏差)

我发现这两个概念的英文也更好理解,所以我也会直接用Bias 和 Variance 来解释这两个概念。

img_7cccb9d7b58507926b9794ee58e10af6.png

同样的,如上图以打靶为例,Bias 就是弹孔偏离靶心的距离,偏得越远Bias 就越高。Variance 就是弹孔发散程度,越发散,Variance 就越高。

一般来说,在机器学习中
Bias 是指模型在Train set(训练集)中的错误率。
Variance是在Dev set(验证集)中的错误率减去Train set(训练集)中的错误率

在机器学习中,Bias 和Variance 的分析非常重要,因为直接关系到训练的模型是overfitting(过拟合) 还是underfiting(欠拟合)。

4、 Overfitting (过拟合) 和Underfiting(欠拟合)

比如理想状况下一个模型的错误率是(Optimal error rate (“unavoidable bias”))是5%。那我们来分析一下下面的例子。
Train Set 错误率 = 6%
Dev Set 错误率 = 7%
这是接近理想的状况,模型既没有Overfitting 也没有Underfitting. Bias 是6%接近unavoidable bias,Variance是1%(7%-6%)。

Train Set 错误率 = 3%
Dev Set 错误率 = 16%
这种情况Variance 非常高(16%-3% =13%), 是典型的Overfitting的情况。

Train Set 错误率 = 15%
Dev Set 错误率 = 16%
这种情况Bias 非常高,是典型的Underfitting的情况。

Train Set 错误率 = 15%
Dev Set 错误率 = 30%
Bias 和 Variance 都非常高,同时Overfitting 和 Underfitting.

以上的几个概念是非常重要又容易混淆的概念,通过举例而不是罗列公式从感性上理解这些概念对于理解机器学习,优化机器学习模型非常有用。

————
相关文章
AI学习笔记——循环神经网络(RNN)的基本概念
AI学习笔记——神经网络和深度学习
AI学习笔记——卷积神经网络1(CNN)
————
文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言或者访问我的Steemit主页

目录
相关文章
|
2月前
|
机器学习/深度学习 算法 数据可视化
机器学习模型中特征贡献度分析:预测贡献与错误贡献
本文将探讨特征重要性与特征有效性之间的关系,并引入两个关键概念:预测贡献度和错误贡献度。
259 3
|
10天前
|
传感器 机器学习/深度学习 人工智能
自动驾驶汽车中的AI:从概念到现实
【10月更文挑战第31天】自动驾驶汽车曾是科幻概念,如今正逐步成为现实。本文探讨了自动驾驶汽车的发展历程,从早期的机械控制到现代的AI技术应用,包括传感器融合、计算机视觉、路径规划和决策控制等方面。尽管面临安全性和法规挑战,自动驾驶汽车在商用运输、公共交通和乘用车领域展现出巨大潜力,未来将为人类带来更安全、便捷、环保的出行方式。
|
1月前
|
数据采集 移动开发 数据可视化
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
这篇文章介绍了数据清洗、分析、可视化、模型搭建、训练和预测的全过程,包括缺失值处理、异常值处理、特征选择、数据归一化等关键步骤,并展示了模型融合技术。
53 1
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
|
1月前
|
机器学习/深度学习 自然语言处理 JavaScript
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)是量化概率分布差异的关键概念。本文深入探讨了KL散度及其相关概念,包括Jensen-Shannon散度和Renyi散度。KL散度用于衡量两个概率分布之间的差异,而Jensen-Shannon散度则提供了一种对称的度量方式。Renyi散度通过可调参数α,提供了更灵活的散度度量。这些概念不仅在理论研究中至关重要,在实际应用中也广泛用于数据压缩、变分自编码器、强化学习等领域。通过分析电子商务中的数据漂移实例,展示了这些散度指标在捕捉数据分布变化方面的独特优势,为企业提供了数据驱动的决策支持。
61 2
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
|
1月前
|
机器学习/深度学习 数据可视化 数据挖掘
机器学习中空间和时间自相关的分析:从理论基础到实践应用
空间和时间自相关是数据分析中的重要概念,揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础,并通过野火风险预测的实际案例,展示了如何利用随机森林模型捕捉时空依赖性,提高预测准确性。
46 0
机器学习中空间和时间自相关的分析:从理论基础到实践应用
|
1月前
|
机器学习/深度学习 计算机视觉 Python
模型预测笔记(三):通过交叉验证网格搜索机器学习的最优参数
本文介绍了网格搜索(Grid Search)在机器学习中用于优化模型超参数的方法,包括定义超参数范围、创建参数网格、选择评估指标、构建模型和交叉验证策略、执行网格搜索、选择最佳超参数组合,并使用这些参数重新训练模型。文中还讨论了GridSearchCV的参数和不同机器学习问题适用的评分指标。最后提供了使用决策树分类器进行网格搜索的Python代码示例。
54 1
|
1月前
|
机器学习/深度学习 数据可视化 算法
机器学习中的回归分析:理论与实践
机器学习中的回归分析:理论与实践
|
1月前
|
机器学习/深度学习 数据采集 算法
【Python篇】从零到精通:全面分析Scikit-Learn在机器学习中的绝妙应用
【Python篇】从零到精通:全面分析Scikit-Learn在机器学习中的绝妙应用
38 2
|
1月前
|
机器学习/深度学习 数据挖掘
二、机器学习之回归模型分析
二、机器学习之回归模型分析
97 0
|
2月前
|
机器学习/深度学习 存储 人工智能
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
使用Python作为开发语言,基于文本数据集(一个积极的xls文本格式和一个消极的xls文本格式文件),使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。
49 0
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计

热门文章

最新文章