吴恩达《Machine Learning Yearning》总结(31-40章)

简介: 31.解读学习曲线:其他情况下图反映了高方差,通过增加数据集可以改善。下图反映了高偏差和高方差,需要找到一种方法来同时减少方差和偏差。32.绘制学习曲线情况:当数据集非常小时,比如只有100个样本,这时绘制出来的学习曲线可能噪声非常大。

31.解读学习曲线:其他情况

下图反映了高方差,通过增加数据集可以改善。

下图反映了高偏差和高方差,需要找到一种方法来同时减少方差和偏差。

32.绘制学习曲线

情况:当数据集非常小时,比如只有100个样本,这时绘制出来的学习曲线可能噪声非常大。

解决方法:

(1)与其只使用10个样本训练单个模型,不如从你原来的100个样本中进行随机有放回抽样,选择几批(比如3-10)不同的10个样本进行组合。在这些数据上训练不同的模型,并计算每个模型的训练和开发错误,最终计算和绘制平均训练集误差和平均开发集误差。

(2)如果你的训练集偏向于一个类,或许它有许多类,那么选择一个“平衡”子集,而不是从100个样本中随机抽取10个训练样本。例如,你可以确保这些样本中的2/10是正样本,8/10是负样本。更常见的做法是,确保每个类的样本比例尽可能的接近原始训练集的总体比例。

33.为何与人类表现水平进行对比

对于人类擅长的事情,例如图像识别,语音识别等。

(1)易于从认为标签中获取数据。

(2)基于人类直接进行误差分析。

(3)使用人类表现水平来估计最优错误率,并设置可达到的“期望错误率”。

对于人类也不擅长的事情,例如推进书籍电影,股票市场预测。

(1)获取标签数据很难。

(2)人类的直觉难以依靠。

(3)最优错误率和合理的期望错误率难以估计。

34.如何定义人类表现水平

应该用人类的最高水平去衡量人类的水平(即期望误差率)。举例:医学图像疾病诊断,普通人错误率20%,医生10%,专家5%,专家讨论小左2%,此时人类水平应该为2%。

35.超越人类表现水平

举例:语音识别人类错误率是10%,而你的算法错误率是8%,此时已经超越人类,但这时某个子集(即某些方面,如转录语音很快时)人类仍然优于算法,在这些方面仍然可以用前面提到的一些技术进行提升。在语音转录上,仍然可以(1)从输出质量比你的算法高的人那儿获取转录数据。(2)你可以利用人类的直觉来理解,为什么你的系统没能欧识别这些数据,而人类做到了。(3)你可以使用该子集上的人类表现作为期望表现目标。

相关文章
|
机器学习/深度学习 算法 双11
周志华《Machine Learning》学习笔记(17)--强化学习
强化学习(Reinforcement Learning,简称RL)是机器学习的一个重要分支,前段时间人机大战的主角AlphaGo正是以强化学习为核心技术。
129 0
周志华《Machine Learning》学习笔记(17)--强化学习
|
机器学习/深度学习 算法
周志华《Machine Learning》学习笔记(7)--支持向量机
支持向量机是一种经典的二分类模型,基本模型定义为特征空间中最大间隔的线性分类器,其学习的优化目标便是间隔最大化,因此支持向量机本身可以转化为一个凸二次规划求解的问题。
150 0
周志华《Machine Learning》学习笔记(7)--支持向量机
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(15)--半监督学习
监督学习指的是训练样本包含标记信息的学习任务
163 0
周志华《Machine Learning》学习笔记(15)--半监督学习
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(10)--集成学习
顾名思义,集成学习(ensemble learning)指的是将多个学习器进行有效地结合,组建一个“学习器委员会”
69 0
周志华《Machine Learning》学习笔记(10)--集成学习
|
机器学习/深度学习 自然语言处理 算法
周志华《Machine Learning》学习笔记(16)--概率图模型
根据一些已观察到的证据来推断未知,更具哲学性地可以阐述为:未来的发展总是遵循着历史的规律。
90 0
周志华《Machine Learning》学习笔记(16)--概率图模型
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(1)--绪论
机器学习是目前信息技术中最激动人心的方向之一,其应用已经深入到生活的各个层面且与普通人的日常生活密切相关。
101 0
周志华《Machine Learning》学习笔记(1)--绪论
|
算法
周志华《Machine Learning》学习笔记(5)--决策树
顾名思义,决策树是基于树结构来进行决策的,在网上看到一个例子十分有趣,放在这里正好合适。
88 0
周志华《Machine Learning》学习笔记(5)--决策树
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(8)--贝叶斯分类器
贝叶斯分类器是一种概率框架下的统计学习分类器,对分类任务而言,假设在相关概率都已知的情况下,贝叶斯分类器考虑如何基于这些概率为样本判定最优的类标。
124 0
周志华《Machine Learning》学习笔记(8)--贝叶斯分类器
|
机器学习/深度学习 算法
周志华《Machine Learning》学习笔记(4)--线性模型
笔记的前一部分主要是对机器学习预备知识的概括。
112 0
周志华《Machine Learning》学习笔记(4)--线性模型
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(11)--聚类
聚类是一种经典的无监督学习方法,无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,即不依赖于训练数据集的类标记信息。
114 0
周志华《Machine Learning》学习笔记(11)--聚类