吴恩达《Machine Learning Yearning》总结(21-30章)

简介: 21.偏差和方差举例前提:对于人类而言,可以达到近乎完美的表现(即人类去做分类是误差可以接近0)。(1)假设算法的表现如下:训练误差率:1%,开发误差率:11%;此时即为高方差(high variance),也被称为过拟合(overfitting)。

21.偏差和方差举例

前提:对于人类而言,可以达到近乎完美的表现(即人类去做分类是误差可以接近0)。

(1)假设算法的表现如下:训练误差率:1%,开发误差率:11%;此时即为高方差(high variance),也被称为过拟合(overfitting)。

(2)假设算法的表现如下:训练误差:15&,开发误差率:16%;此时即为高偏差(high bias),也被称为欠拟合(underfitting)。

(3)假设算法的表现如下:训练误差:15%,开发误差率:30%;此时即为高偏差和高方差。

(4)假设算法的表现如下:训练误差:0.5%,开发误差率:1%;此时算法已经非常完美。

22.与最优误差率比较

举例:当一个连人类都很难完成(如很多噪音的语音识别)的分类任务,人类的误差率达到14%,此时最完美的误差为14%,该误差称为最优误差率,也称为贝叶斯错误率(Bayes error rate)。以上的最优错误率是可以确定的,但是有些问题如电影推荐,很难去确定其最优误差率是多少。

此时偏差和进一步细化:偏差=最优误差率+可避免偏差;其中可避免偏差高时才值得去优化。

23..处理偏差和方差

(1)如果具有较高的可避免偏差,那么可以加大模型的规模(例如增加神经元的层数、每层神经元的个数)。

(2)如果具有较高的方差,那么可以向训练集增加数据。

其他(3)改变网络的架构,这样会带来新的结果。

在增大网络模型时,会带来高方差的风险,但只要通过适当的正则化(如L2),或者dropout等策略,就不会出现这样的问题。

24.偏差和方差间的均衡

在现如今,往往可以获得足够的数据,并且足够的算力来支撑非常大的网络,所以不会出现此消彼长的情况。

25.减少可避免偏差的技术

(1)加大模型规模(例如层数/神经元个数),此时加入正则化可以抵消方差的增加。

(2)根据误差分析结果修改输入特征。

(3)减少或者去除正则化。这种方式会增加方差。

(4)修改模型架构。这项技术会同时影响方差和偏差。

26.训练集误差分析

在训练集上也做类似于开发集上的误差分析。

27.减少方差的技术

(1)添加更多的训练数据。

(2)加入正则化(L1,L2,Dropout),该项会增大偏差。

(3)加入提前终止(比如根据开发集提前终止梯度下降),这项技术会增加偏差,一些学者将其归入正则化技术之一。

(4)通过特征选择减少特征的数量和种类,当数据集很小时,特征选择非常有用。

(5)减小模型规模,谨慎使用。

以下两种方式和减少偏差的策略相同

(6)根据误差分析结果修改输入特征。

(7)修改模型架构。

28.诊断偏差与方差:学习曲线

学习1曲线:误差随数据量增加的变化趋势。

学习曲线有一个缺点:当数据量变得越来越多是,将很难预测后续红色曲线的走向。

29.绘制训练误差曲线

训练误差上升说明:比如两张图片算法很容易就分辨出来,其误差为0,当增加到100张时,就不一定都能正确识别了。

30.解读学习曲线:高偏差

观察结果:

(1)随着我们添加更多的训练数据,训练误差只会变得更糟,因此蓝色的训练误差曲线只会保持不动或上升,这表明它只会远离期望的性能水平(绿色的线)。

(2)红色的开发误差曲线通常要高于蓝色的误差曲线,因此只要训练误差高于期望性能水平,通过添加更多数据来让红色开发误差曲线下降到期望性能水平之下也基本不可能。

之前我们讨论的都是曲线的最右端,而通过学习曲线则更加的群面了解算法。

 

相关文章
|
机器学习/深度学习 算法 双11
周志华《Machine Learning》学习笔记(17)--强化学习
强化学习(Reinforcement Learning,简称RL)是机器学习的一个重要分支,前段时间人机大战的主角AlphaGo正是以强化学习为核心技术。
131 0
周志华《Machine Learning》学习笔记(17)--强化学习
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(15)--半监督学习
监督学习指的是训练样本包含标记信息的学习任务
164 0
周志华《Machine Learning》学习笔记(15)--半监督学习
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(1)--绪论
机器学习是目前信息技术中最激动人心的方向之一,其应用已经深入到生活的各个层面且与普通人的日常生活密切相关。
102 0
周志华《Machine Learning》学习笔记(1)--绪论
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(10)--集成学习
顾名思义,集成学习(ensemble learning)指的是将多个学习器进行有效地结合,组建一个“学习器委员会”
71 0
周志华《Machine Learning》学习笔记(10)--集成学习
|
机器学习/深度学习 算法
周志华《Machine Learning》学习笔记(7)--支持向量机
支持向量机是一种经典的二分类模型,基本模型定义为特征空间中最大间隔的线性分类器,其学习的优化目标便是间隔最大化,因此支持向量机本身可以转化为一个凸二次规划求解的问题。
150 0
周志华《Machine Learning》学习笔记(7)--支持向量机
|
机器学习/深度学习 自然语言处理 算法
周志华《Machine Learning》学习笔记(16)--概率图模型
根据一些已观察到的证据来推断未知,更具哲学性地可以阐述为:未来的发展总是遵循着历史的规律。
91 0
周志华《Machine Learning》学习笔记(16)--概率图模型
|
算法 数据挖掘
周志华《Machine Learning》学习笔记(9)--EM算法
EM(Expectation-Maximization)算法是一种常用的估计参数隐变量的利器,也称为“期望最大算法”,是数据挖掘的十大经典算法之一。
136 0
周志华《Machine Learning》学习笔记(9)--EM算法
|
算法
周志华《Machine Learning》学习笔记(5)--决策树
顾名思义,决策树是基于树结构来进行决策的,在网上看到一个例子十分有趣,放在这里正好合适。
88 0
周志华《Machine Learning》学习笔记(5)--决策树
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(8)--贝叶斯分类器
贝叶斯分类器是一种概率框架下的统计学习分类器,对分类任务而言,假设在相关概率都已知的情况下,贝叶斯分类器考虑如何基于这些概率为样本判定最优的类标。
125 0
周志华《Machine Learning》学习笔记(8)--贝叶斯分类器
|
机器学习/深度学习 算法
周志华《Machine Learning》学习笔记(4)--线性模型
笔记的前一部分主要是对机器学习预备知识的概括。
113 0
周志华《Machine Learning》学习笔记(4)--线性模型