【学习记录】《DeepLearning.ai》第八课:机器学习策略(1)(ML strategy(1))

简介: 2021/9/9

第八课:机器学习策略(1)(ML strategy(1))

1.1 什么是ML策略

image

ML策略总结就是让人少走弯路,能够选择合适的方法来优化系统。


1.2 正交化(Orthogonalization)

image

针对不同的环节出现的问题进行不同方式的解决。判断出系统的性能瓶颈出现在那里,然后找到一组特定的旋钮来调整系统,来改善它特定的性能。


1.3 单一数字评估指标(Single number evaluation metric)

image

对于上面两个分类器,分别给出了它们的查准率和召回率,通常这两个特征必须折中,因此无法判断哪个分类器的效果更好,我们引入一个参数:

$$ F_1Score:2\frac{PR}{P+R} $$

如上图所示,很显然分类器A的参数值FScore最大,因此选择A分类器。

选择$F_1Score$较大的那个值

通常将算法的预测结果分为四种情况:

1.正确肯定(True Positive,TP):预测为真,实际为真;

2.正确否定(True Negative,TN):预测为假,实际为真;

3.错误肯定(False Positive,FP):预测为真,实际为假;

4.错误否定(False Negative,FN):预测为假,实际为真。

$$ 查准率(Precision)=\frac{TP}{TP+FP}\\ 查全率/召回率(Recall)=\frac{TP}{TP+FN} $$

image

查准率通常用P表示,查全率或召回率通常用R表示,则可以得到上面F_1Score的公式。

image

对于如上图可以选择每个算法在各地的误差平均值,计算之后发现平均值误差最小的是算法C,因此我们选择算法C.

这就是单一数字评估指标的基本概念,选择一个数字来评估。


1.4 满足和优化指标(Satisficing and opeimizing metrics)

当需要顾及多个指标,比如有一个优化指标以及一个或多个满足指标,对于需要满足的指标,需要达到一定门槛即可。这些评价指标必须是在训练集、开发集、测试集上求出来的,因此必须设立训练集、开发集、测试集。下节课见。


1.5 训练/开发/测试集划分(Train/dev/test distributions)

选择开发集以及评估指标,就定义了所要瞄准的目标。同时让开发集和测试集在同一分布之中。


1.6 开发集和测试集的大小(Size of dev and test sets)

image

划分训练集、开发集、测试集划分方法如上,如果数据量较少可以划分为7:3和6:2:2.但如果数据量比较大,可以划分为98:1:1。

在实际工作中,可能有时候不需要测试集,只有开发集和训练集两部分。测试集的目的是评估最终的成本偏差。


1.7 何时改变开发/测试集/指标

实操经验:首先构建分类器和指标,将设立目标作为第一步,而瞄准和射击目标作为第二步,也就是在设立目标之后,应该想着如何优化系统提高指标评分,比如改变神经网络的优化成本函数J。

在解决问题时候,应该首先设立评估指标和开发集。


1.8 为何比较机器学习和人类的表现

贝叶斯最优错误率:指理论上可能达到的最优错误率,无论如何设置,都无法让其超过一定的准确度。

如上图蓝线为人类的精确度,绿线为贝叶斯最优错误率,紫色线表示机器学习的学习表现。

对于人类擅长的任务:比如可以让人标记数据,人工错误率分析,同时更好的分析偏差和方差。


1.9 可避免偏差(Avoidable bias)

image

选择避免方差策略还是避免偏差策略:

如上图,当贝叶斯误差与训练集误差之差比开发集误差与训练集误差之差比较相对较大时候,选择避免偏差策略,

相反,当贝叶斯误差与训练集误差之差比开发集误差与训练集误差之差比较相对较小时候,选择避免方差策略。


1.10 理解人的表现

image

image

人类水平错误率可以用贝叶斯错误率来近似代替,在人类水平误差与训练集误差之间用来调试偏差,在训练集误差与开发集误差之间人们用来调试方差。


1.11 超过人的表现

image

机器学习超过人的水平???


1.12 改善你的模型表现

image

解决高方差(过拟合)问题:

1.获得更多的训练样本

2.减少特征的数量

3.尝试增加正则化程度$\lambda$

解决高偏差(欠拟合)问题:

1.增加特征的数量

2.增加多项式特征

3.减少正则化程度$\lambda$

4.训练更好的优化算法,如Rmsprop,adam,momunte等等

如上图所示


2021/9/9结束,冲冲冲

相关文章
|
11天前
|
机器学习/深度学习 数据采集 自然语言处理
构建高效机器学习模型的策略与实践
【4月更文挑战第30天】 在数据驱动的时代,机器学习(ML)作为一项核心技术,其应用范围和影响力日益扩大。然而,构建一个既高效又准确的机器学习模型并非易事。本文将探讨一系列实用的策略和技术,用于优化机器学习的工作流程,包括数据预处理、特征工程、模型选择、超参数调优以及模型评估等方面。通过这些策略,读者可以提升模型的性能,确保在实际应用中达到预期的准确度和效率。
|
3天前
|
机器学习/深度学习 算法 异构计算
构建高效机器学习模型的策略与实践
【5月更文挑战第8天】 随着数据科学领域的不断进步,机器学习(ML)已成为解决复杂问题的重要工具。然而,构建一个既高效又准确的ML模型并非易事。本文将详细探讨在设计和训练机器学习模型时可以采用的一系列策略,以优化其性能和效率。我们将讨论特征工程的重要性、选择合适的算法、调整参数以及评估模型的有效性。通过这些策略,读者将能够更好地理解如何提升模型的预测能力并避免常见的陷阱。
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
【5月更文挑战第4天】【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
|
8天前
|
机器学习/深度学习 人工智能 算法
【AI 初识】讨论深度学习和机器学习之间的区别
【5月更文挑战第3天】【AI 初识】讨论深度学习和机器学习之间的区别
|
9天前
|
机器学习/深度学习 数据采集 人工智能
【AI 初识】机器学习中维度的诅咒是什么?
【5月更文挑战第2天】【AI 初识】机器学习中维度的诅咒是什么?
|
11天前
|
机器学习/深度学习 人工智能 算法
【Python 机器学习专栏】强化学习在游戏 AI 中的实践
【4月更文挑战第30天】强化学习在游戏AI中展现巨大潜力,通过与环境交互和奖励信号学习最优策略。适应性强,能自主探索,挖掘出惊人策略。应用包括策略、动作和竞速游戏,如AlphaGo。Python是实现强化学习的常用工具。尽管面临训练时间长和环境复杂性等挑战,但未来强化学习将与其他技术融合,推动游戏AI发展,创造更智能的游戏体验。
|
11天前
|
机器学习/深度学习 Python
【Python 机器学习专栏】堆叠(Stacking)集成策略详解
【4月更文挑战第30天】堆叠(Stacking)是机器学习中的集成学习策略,通过多层模型组合提升预测性能。该方法包含基础学习器和元学习器两个阶段:基础学习器使用多种模型(如决策树、SVM、神经网络)学习并产生预测;元学习器则利用这些预测结果作为新特征进行学习,生成最终预测。在Python中实现堆叠集成,需划分数据集、训练基础模型、构建新训练集、训练元学习器。堆叠集成的优势在于提高性能和灵活性,但可能增加计算复杂度和过拟合风险。
|
11天前
|
机器学习/深度学习 Cloud Native 持续交付
构建高效机器学习模型的策略与实践构建未来:云原生技术在企业数字化转型中的关键作用
【4月更文挑战第30天】 在机器学习领域,构建一个高效的模型不仅需要深厚的理论基础,还需结合先进的技术手段和策略。本文将探讨一系列提升模型性能的方法,包括数据预处理、特征选择、模型调参以及集成学习等。通过具体案例分析,揭示这些方法如何在实际问题中得以应用,并讨论它们对模型性能的影响。文中还将涉及最新的研究进展,为读者提供前瞻性的指导意义。 【4月更文挑战第30天】随着企业加速其数字化转型之旅,云原生技术已成为推动创新和灵活性的核心。本文深入探讨了云原生架构的原则,包括微服务、容器化、持续集成/持续部署(CI/CD)、以及声明式APIs。分析了这些技术如何共同促进可伸缩性、敏捷性和容错性,同时
|
1天前
|
机器学习/深度学习 算法
【机器学习】比较朴素贝叶斯算法与逻辑回归算法
【5月更文挑战第10天】【机器学习】比较朴素贝叶斯算法与逻辑回归算法
|
1天前
|
机器学习/深度学习 数据采集 自然语言处理
经典机器学习算法——Pagerank算法(二)
PageRank 算法由 Google 创始人 Larry Page 在斯坦福读大学时提出,又称 PR——佩奇排名。主要针对网页进行排名,计算网站的重要性,优化搜索引擎的搜索结果。PR 值是表示其重要性的因子

热门文章

最新文章