周志华第一章,第二章学习总结

简介: 周志华第一章,第二章学习总结

第一章:

机器学习:人类将自身经验总结转为为数据的形式(机器可以处理的形式 = 数据集),输入到机器内部让机器学习,从而代替人类进行某项工作,这种成为机器学习。


学习人类经验之后,使用其进行测试的过程称为预测。被测试的样本被称为测试样本。


每条经验(数据) = 训练数据      训练数据(集合)= 训练集


若预测的是离散值,例如黑猫,白猫,此类问题为分类问题。


如果预测的是连续值,例如西瓜的成熟程度为0.95、0.37,此类问题为回归问题。


根据训练数据是否含有标记信息,学习任务可大致分为两大类:‘ 监督学习 ’ 和 “ 无监督学习 ”


,分类和回归是前两类的代表,而聚类是后者的代表。机器学习的目标是使模型更好的适应新数据,即我们常说的泛化能力,指的是模型不仅仅在训练集上表现很好,而且在测试集上也表现的很好。


训练数据的选取,最好可以完整的反应整个样本控制的特性,理论上这样可以建立泛化能力更强的模型。


第二章:

错误率:如果在m个样本中有a个样本分类错误,则错误率E = a/m ;相应的精度为(1-a/m)*100%。即所谓的误差


模型在训练集上表现得为训练误差或经验误差,在新样本上表现的是泛化误差。


当学习器把训练样本学得  太好了 的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都 会具有的一般性质,这样就会导致泛化性能下降.这种现象在机器学习中称   过拟合  。

反之,在样本训练集上都表现不好的则为欠拟合。

欠拟合往往是由于学习能力欠缺等产生的很好克服,有很多trick,但是过拟合往往是比较难解决的问题。表现为学习能力过于强大等问题,因此我们要在降低模型学习能力的同时,又不让模型欠拟合,这是我们需要解决的问题。

训练集测试集的划分:要尽可能的保持数据分布的一致性这样才不会引入额外的误差,至少要保证样本的类别比例相似,这样才能让模型具有更好的泛化性。

K交叉验证法:将数据集k个大小相似的互斥子集,即D=D1UD2U....DK, 然后每次子集的数据分布都跟原来的数据集相同,每次都用k-1个作为训练集,剩下的一个作为测试集,进行K次训练和测试,最终返回这K次训练的平均值。

调参:对模型的参数进行调整,一个成熟的机器学习模型包含很多的参数,同一个模型参数选择的不同也会导致模型效果的天差地别,因此模型的参数调整是一门很深的学问,因为机器学习模型里面的参数都是一些范围性的值,在面对不同的对象的时候都需要进行相应的调整才能产生理想的效果。

性能度量法:均方误差法是回归任务常用的。具体可以描述为对每个样本的误差进行平方求和再除以整个的样本数m。也可以表示为积分的形式。

image.png

查重率,查准率:

image.png

相关文章
|
6月前
|
编译器 C++
c++primer Plus 6 的课后题(第二章2.6)
c++primer Plus 6 的课后题(第二章2.6)
|
设计模式 前端开发 Linux
第一章-导论
第一章-导论
35 0
|
编译器 Linux C语言
C++Primer 【学习笔记】第一章 深思
main 函数在很多方面都比较特别,其中最重要的是每个 0+程序必须含有 main 函数,且 main 函数是(唯一)被操作系统显式调用的函数。
72 0
|
算法
趣学算法【第一章:算法之美】感悟(下)
趣学算法【第一章:算法之美】感悟(下)
|
算法 程序员
趣学算法【第一章:算法之美】感悟(上)
趣学算法【第一章:算法之美】感悟(上)
【计算机科学导论】第一章 绪论
【计算机科学导论】第一章 绪论
|
存储 自然语言处理 算法
【趣学算法】第一章读书笔记
宕机就是死机,指计算机无法正常工作,包括一切原因导致的死机。计算机主机出现意外故障而死机,一些服务器死锁,服务器的某些服务停止运行等,都可以称为宕机。
2018《软件工程导论》知识点复习【第二章】
2018《软件工程导论》知识点复习【第二章】
86 0
2018《软件工程导论》知识点复习【第二章】
|
机器学习/深度学习 算法
周志华机器学习课后习题解析【第二章】
周志华机器学习课后习题解析【第二章】
1107 0
周志华机器学习课后习题解析【第二章】
|
机器学习/深度学习 C++
【读书笔记】周志华《机器学习》第三版课后习题讨<第一章-绪论>
虽然是绪论。。但是。。。真的有点难!不管怎么说,一点点前进吧。。。 声明一下答案不一定正确,仅供参考,为本人的作答,希望大神们能多多指教~ 1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。
2149 0

相关实验场景

更多