AI学习笔记——机器学习中误差分析的几个关键概念

简介: 在之前的文章中介绍了经典的机器学习算法,深度学习算法等等,但是在这些算法的应用中有几个非常关键又很容易混淆的概念必须要强调一下。1、数据分组机器学习的数据一般会分为 train(训练), development(验证) 和 test(测试) 三个组。

在之前的文章中介绍了经典的机器学习算法,深度学习算法等等,但是在这些算法的应用中有几个非常关键又很容易混淆的概念必须要强调一下。

1、数据分组

机器学习的数据一般会分为 train(训练), development(验证) 和 test(测试) 三个组。有时候可以将development 和 test 合并统称为dev/test set。

train 和 dev/test 在数据量较小的时候可以遵循70%和30%的分组原则,在数据量特别大的情况下dev/test 组比例可以减小。但最重要的是train 和 dev/test sets 的数据分布要尽可能一致。

2、Precision(准确率)和 Recall(召回率)

中文中“准确率”“精确率”经常混用来表示英文中的Precision 和 Accuracy ,然而这两个概念在数学上这两个词是不同的,为了避免歧义,这里统一用英文表达。Precison和Recall都有相应的数学公式,可以很容易google得到。在这里通过实例和图形直观理解这两个概念的含义。


img_79a3abdb125388968af2af300f951f91.png

如上图,比如在测试火灾报警器的性能的时候,左边淡绿色的方框是真实发生火灾的事件,右边方框是没有发生火灾的事件。左半边圆圈是发生火灾并报警的事件,右边圆圈是没有发生火灾而误报的情况。
如图所示,
Precision :所有报警的事件中真实发生火灾的比例。它的反义词更好理解就是误报率
Recall:所有发生火灾的事件中报警的比例。它的反义词更好理解就是漏报率

当然还有一个容易与Precision 混淆的概念,Accuracy (准确率)—就是所有正确报警的事件除以所有事件,错误率(Error)就是准确率的反义词。

Precision 和 Recall 是两个矛盾的参数,这个也很好理解,提高报警器的敏感度必然会减少漏报率,但是同时误报率也会增加。所以在评价一个模型的好坏的时候,往往这两个参数都要考虑,当然也有F1参数将Precision和Recall 统一起来了。

3、Bias(方差) 和 Variance(偏差)

我发现这两个概念的英文也更好理解,所以我也会直接用Bias 和 Variance 来解释这两个概念。

img_7cccb9d7b58507926b9794ee58e10af6.png

同样的,如上图以打靶为例,Bias 就是弹孔偏离靶心的距离,偏得越远Bias 就越高。Variance 就是弹孔发散程度,越发散,Variance 就越高。

一般来说,在机器学习中
Bias 是指模型在Train set(训练集)中的错误率。
Variance是在Dev set(验证集)中的错误率减去Train set(训练集)中的错误率

在机器学习中,Bias 和Variance 的分析非常重要,因为直接关系到训练的模型是overfitting(过拟合) 还是underfiting(欠拟合)。

4、 Overfitting (过拟合) 和Underfiting(欠拟合)

比如理想状况下一个模型的错误率是(Optimal error rate (“unavoidable bias”))是5%。那我们来分析一下下面的例子。
Train Set 错误率 = 6%
Dev Set 错误率 = 7%
这是接近理想的状况,模型既没有Overfitting 也没有Underfitting. Bias 是6%接近unavoidable bias,Variance是1%(7%-6%)。

Train Set 错误率 = 3%
Dev Set 错误率 = 16%
这种情况Variance 非常高(16%-3% =13%), 是典型的Overfitting的情况。

Train Set 错误率 = 15%
Dev Set 错误率 = 16%
这种情况Bias 非常高,是典型的Underfitting的情况。

Train Set 错误率 = 15%
Dev Set 错误率 = 30%
Bias 和 Variance 都非常高,同时Overfitting 和 Underfitting.

以上的几个概念是非常重要又容易混淆的概念,通过举例而不是罗列公式从感性上理解这些概念对于理解机器学习,优化机器学习模型非常有用。

————
相关文章
AI学习笔记——循环神经网络(RNN)的基本概念
AI学习笔记——神经网络和深度学习
AI学习笔记——卷积神经网络1(CNN)
————
文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言或者访问我的Steemit主页

目录
相关文章
|
12天前
|
人工智能 监控 安全
ai换脸?分析一下双刃剑
随着技术进步,“换脸”技术在身份验证中的应用日益广泛,但也引发了一系列问题,如侵犯肖像权、隐私泄露、虚假信息传播及身份盗用等。尽管国家尚未全面禁止换脸软件,已出台多项法规加强监管,确保技术合法、安全应用。未来,平衡技术利弊与社会需求将是关键。换脸技术在影视娱乐、社交媒体和医学领域展现出巨大潜力,但仍需谨慎使用,避免滥用。
|
26天前
|
人工智能 自然语言处理 搜索推荐
【人工智能】人工智能(AI)、Web 3.0和元宇宙三者联系、应用及未来发展趋势的详细分析
人工智能(AI)、Web 3.0和元宇宙作为当前科技领域的热门话题,它们之间存在着紧密的联系,并在各自领域内展现出广泛的应用和未来的发展趋势。以下是对这三者联系、应用及未来发展趋势的详细分析
41 2
【人工智能】人工智能(AI)、Web 3.0和元宇宙三者联系、应用及未来发展趋势的详细分析
|
20天前
|
人工智能 自然语言处理 搜索推荐
评测:AI客服接入钉钉与微信的对比分析
【8月更文第22天】随着人工智能技术的发展,越来越多的企业开始尝试将AI客服集成到自己的业务流程中。本文将基于《10分钟构建AI客服并应用到网站、钉钉或微信中》的解决方案,详细评测AI客服在钉钉和微信中的接入流程及实际应用效果,并结合个人体验分享一些心得。
9895 7
|
14天前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
21天前
|
存储 人工智能 算法
AI与大数据的结合:案例分析与技术探讨
【8月更文挑战第22天】AI与大数据的结合为各行各业带来了前所未有的机遇和挑战。通过具体案例分析可以看出,AI与大数据在电商、智能驾驶、医疗等领域的应用已经取得了显著成效。未来,随着技术的不断进步和应用场景的不断拓展,AI与大数据的结合将继续推动各行业的创新与变革。
|
25天前
|
存储 边缘计算 人工智能
【边缘计算与AI】分析边缘计算在处理AI任务、优化响应速度和数据隐私保护方面的作用和潜力
边缘计算与AI的结合是当前技术发展的重要趋势,两者相互依存、相互促进,共同推动着数字化转型的深入发展。以下是对边缘计算与AI关系的详细分析
54 6
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
【模型微调】AI Native应用中模型微调概述、应用及案例分析
在AI Native应用中,模型微调是一个关键步骤,它允许开发者使用特定领域的数据对预训练模型进行二次训练过程,从而使其更好地适应特定任务或数据集。模型微调通过调整模型的参数,使模型在特定任务上达到更高的性能。这种技术广泛应用于自然语言处理、图像识别、语音识别等领域
50 1
|
25天前
|
机器学习/深度学习 数据采集 人工智能
【AI在金融科技中的应用】详细介绍人工智能在金融分析、风险管理、智能投顾等方面的最新应用和发展趋势
人工智能(AI)在金融领域的应用日益广泛,对金融分析、风险管理和智能投顾等方面产生了深远影响。以下是这些领域的最新应用和发展趋势的详细介绍
73 1
|
1月前
|
机器学习/深度学习 算法
【机器学习】解释对偶的概念及SVM中的对偶算法?(面试回答)
解释了对偶的概念,指出对偶性在优化问题中的重要性,尤其是在强对偶性成立时可以提供主问题的最优下界,并且详细阐述了支持向量机(SVM)中对偶算法的应用,包括如何将原始的最大间隔优化问题转换为对偶问题来求解。
44 2
|
2月前
|
数据采集 人工智能 数据可视化
「AI工程师」数据处理与分析-工作指导
**数据分析师工作指南概要** 该工作指导书详细阐述了数据分析师的职责,包括数据收集、清洗、整合处理以及分析挖掘。分析师需确保数据质量,运用统计和机器学习方法发现洞察,并通过可视化报告支持决策。此外,他们需维护高效的工作流程,使用编程工具优化处理,并遵循数据收集、分析及报告编写规范。成功执行此角色要求深厚的技术基础、沟通协作能力以及持续学习的态度。
77 1
「AI工程师」数据处理与分析-工作指导