第一章:
机器学习:人类将自身经验总结转为为数据的形式(机器可以处理的形式 = 数据集),输入到机器内部让机器学习,从而代替人类进行某项工作,这种成为机器学习。
学习人类经验之后,使用其进行测试的过程称为预测。被测试的样本被称为测试样本。
每条经验(数据) = 训练数据 训练数据(集合)= 训练集
若预测的是离散值,例如黑猫,白猫,此类问题为分类问题。
如果预测的是连续值,例如西瓜的成熟程度为0.95、0.37,此类问题为回归问题。
根据训练数据是否含有标记信息,学习任务可大致分为两大类:‘ 监督学习 ’ 和 “ 无监督学习 ”
,分类和回归是前两类的代表,而聚类是后者的代表。机器学习的目标是使模型更好的适应新数据,即我们常说的泛化能力,指的是模型不仅仅在训练集上表现很好,而且在测试集上也表现的很好。
训练数据的选取,最好可以完整的反应整个样本控制的特性,理论上这样可以建立泛化能力更强的模型。
第二章:
错误率:如果在m个样本中有a个样本分类错误,则错误率E = a/m ;相应的精度为(1-a/m)*100%。即所谓的误差
模型在训练集上表现得为训练误差或经验误差,在新样本上表现的是泛化误差。
当学习器把训练样本学得 太好了 的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都 会具有的一般性质,这样就会导致泛化性能下降.这种现象在机器学习中称 过拟合 。
反之,在样本训练集上都表现不好的则为欠拟合。
欠拟合往往是由于学习能力欠缺等产生的很好克服,有很多trick,但是过拟合往往是比较难解决的问题。表现为学习能力过于强大等问题,因此我们要在降低模型学习能力的同时,又不让模型欠拟合,这是我们需要解决的问题。
训练集测试集的划分:要尽可能的保持数据分布的一致性这样才不会引入额外的误差,至少要保证样本的类别比例相似,这样才能让模型具有更好的泛化性。
K交叉验证法:将数据集k个大小相似的互斥子集,即D=D1UD2U....DK, 然后每次子集的数据分布都跟原来的数据集相同,每次都用k-1个作为训练集,剩下的一个作为测试集,进行K次训练和测试,最终返回这K次训练的平均值。
调参:对模型的参数进行调整,一个成熟的机器学习模型包含很多的参数,同一个模型参数选择的不同也会导致模型效果的天差地别,因此模型的参数调整是一门很深的学问,因为机器学习模型里面的参数都是一些范围性的值,在面对不同的对象的时候都需要进行相应的调整才能产生理想的效果。
性能度量法:均方误差法是回归任务常用的。具体可以描述为对每个样本的误差进行平方求和再除以整个的样本数m。也可以表示为积分的形式。
查重率,查准率: