AI学习笔记——机器学习中误差分析的几个关键概念

简介: 在之前的文章中介绍了经典的机器学习算法,深度学习算法等等,但是在这些算法的应用中有几个非常关键又很容易混淆的概念必须要强调一下。1、数据分组机器学习的数据一般会分为 train(训练), development(验证) 和 test(测试) 三个组。

在之前的文章中介绍了经典的机器学习算法,深度学习算法等等,但是在这些算法的应用中有几个非常关键又很容易混淆的概念必须要强调一下。

1、数据分组

机器学习的数据一般会分为 train(训练), development(验证) 和 test(测试) 三个组。有时候可以将development 和 test 合并统称为dev/test set。

train 和 dev/test 在数据量较小的时候可以遵循70%和30%的分组原则,在数据量特别大的情况下dev/test 组比例可以减小。但最重要的是train 和 dev/test sets 的数据分布要尽可能一致。

2、Precision(准确率)和 Recall(召回率)

中文中“准确率”“精确率”经常混用来表示英文中的Precision 和 Accuracy ,然而这两个概念在数学上这两个词是不同的,为了避免歧义,这里统一用英文表达。Precison和Recall都有相应的数学公式,可以很容易google得到。在这里通过实例和图形直观理解这两个概念的含义。


img_79a3abdb125388968af2af300f951f91.png

如上图,比如在测试火灾报警器的性能的时候,左边淡绿色的方框是真实发生火灾的事件,右边方框是没有发生火灾的事件。左半边圆圈是发生火灾并报警的事件,右边圆圈是没有发生火灾而误报的情况。
如图所示,
Precision :所有报警的事件中真实发生火灾的比例。它的反义词更好理解就是误报率
Recall:所有发生火灾的事件中报警的比例。它的反义词更好理解就是漏报率

当然还有一个容易与Precision 混淆的概念,Accuracy (准确率)—就是所有正确报警的事件除以所有事件,错误率(Error)就是准确率的反义词。

Precision 和 Recall 是两个矛盾的参数,这个也很好理解,提高报警器的敏感度必然会减少漏报率,但是同时误报率也会增加。所以在评价一个模型的好坏的时候,往往这两个参数都要考虑,当然也有F1参数将Precision和Recall 统一起来了。

3、Bias(方差) 和 Variance(偏差)

我发现这两个概念的英文也更好理解,所以我也会直接用Bias 和 Variance 来解释这两个概念。

img_7cccb9d7b58507926b9794ee58e10af6.png

同样的,如上图以打靶为例,Bias 就是弹孔偏离靶心的距离,偏得越远Bias 就越高。Variance 就是弹孔发散程度,越发散,Variance 就越高。

一般来说,在机器学习中
Bias 是指模型在Train set(训练集)中的错误率。
Variance是在Dev set(验证集)中的错误率减去Train set(训练集)中的错误率

在机器学习中,Bias 和Variance 的分析非常重要,因为直接关系到训练的模型是overfitting(过拟合) 还是underfiting(欠拟合)。

4、 Overfitting (过拟合) 和Underfiting(欠拟合)

比如理想状况下一个模型的错误率是(Optimal error rate (“unavoidable bias”))是5%。那我们来分析一下下面的例子。
Train Set 错误率 = 6%
Dev Set 错误率 = 7%
这是接近理想的状况,模型既没有Overfitting 也没有Underfitting. Bias 是6%接近unavoidable bias,Variance是1%(7%-6%)。

Train Set 错误率 = 3%
Dev Set 错误率 = 16%
这种情况Variance 非常高(16%-3% =13%), 是典型的Overfitting的情况。

Train Set 错误率 = 15%
Dev Set 错误率 = 16%
这种情况Bias 非常高,是典型的Underfitting的情况。

Train Set 错误率 = 15%
Dev Set 错误率 = 30%
Bias 和 Variance 都非常高,同时Overfitting 和 Underfitting.

以上的几个概念是非常重要又容易混淆的概念,通过举例而不是罗列公式从感性上理解这些概念对于理解机器学习,优化机器学习模型非常有用。

————
相关文章
AI学习笔记——循环神经网络(RNN)的基本概念
AI学习笔记——神经网络和深度学习
AI学习笔记——卷积神经网络1(CNN)
————
文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言或者访问我的Steemit主页

目录
相关文章
|
1月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
437 109
|
5月前
|
机器学习/深度学习 人工智能 供应链
从概念到商业价值:AI、机器学习与深度学习全景指南
在这个科技飞速发展的时代🚀,人工智能正以惊人的速度渗透到我们的生活和工作中👀。但面对铺天盖地的AI术语和概念,很多人感到困惑不已😣。"AI"、"机器学习"、"深度学习"和"神经网络"到底有什么区别?它们如何相互关联?如何利用这些技术提升工作效率和创造价值?
|
5月前
|
人工智能 API 开发者
用Qwen3+MCPs实现AI自动发布小红书笔记!支持图文和视频
魔搭自动发布小红书MCP,是魔搭开发者小伙伴实现的小红书笔记自动发布器,可以通过这个MCP自动完成小红书标题、内容和图片的发布。
1950 41
|
4月前
|
人工智能 监控 测试技术
云上AI推理平台全掌握 (1):PAI-EAS LLM服务一键压测
在AI技术飞速发展的今天,大语言模型(LLM)、多模态模型等前沿技术正深刻改变行业格局。推理服务是大模型从“实验室突破”走向“产业级应用”的必要环节,需直面高并发流量洪峰、低延时响应诉求、异构硬件优化适配、成本精准控制等复杂挑战。 阿里云人工智能平台 PAI 致力于为用户提供全栈式、高可用的推理服务能力。在本系列技术专题中,我们将围绕分布式推理架构、Serverless 弹性资源全球调度、压测调优和服务可观测等关键技术方向,展现 PAI 平台在推理服务侧的产品能力,助力企业和开发者在 AI 时代抢占先机,让我们一起探索云上 AI 推理的无限可能,释放大模型的真正价值!
|
4月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL消息传递接口的PyG替换
DGL (Deep Graph Learning) 和 PyG (Pytorch Geometric) 是两个主流的图神经网络库,它们在API设计和底层实现上有一定差异,在不同场景下,研究人员会使用不同的依赖库,昇腾NPU对PyG图机器学习库的支持亲和度更高,因此有些时候需要做DGL接口的PyG替换。
|
4月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL图构建接口的PyG替换
本文探讨了在图神经网络中将DGL接口替换为PyG实现的方法,重点以RFdiffusion蛋白质设计模型中的SE3Transformer为例。SE3Transformer通过SE(3)等变性提取三维几何特征,其图构建部分依赖DGL接口。文章详细介绍了两个关键函数的替换:`make_full_graph` 和 `make_topk_graph`。前者构建完全连接图,后者生成k近邻图。通过PyG的高效实现(如`knn_graph`),我们简化了图结构创建过程,并调整边特征处理逻辑以兼容不同框架,从而更好地支持昇腾NPU等硬件环境。此方法为跨库迁移提供了实用参考。
|
5月前
|
数据可视化 Rust 机器学习/深度学习
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
mlop.ai 是首个为国区用户优化的机器学习工具,全栈免费开源,是主流付费解决方案 ClearML/WandB 的开源平替。常规实验追踪的工具经常大幅人为降速,mlop因为底层为Rust代码,能轻松支持高频数据写入。如需更多开发者帮助或企业支持,敬请联系cn@mlop.ai
297 12
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
|
5月前
|
Web App开发 人工智能 JSON
Windows版来啦!Qwen3+MCPs,用AI自动发布小红书图文/视频笔记!
上一篇用 Qwen3+MCPs实现AI自动发小红书的最佳实践 有超多小伙伴关注,同时也排队在蹲Windows版本的教程。
778 1
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
246 6

热门文章

最新文章