西瓜书南瓜书都是好书【线性模型】读书笔记

简介: 西瓜书南瓜书都是好书【线性模型】读书笔记

1.基本定义


image.png

线性模型形式简单、易于建模,但却蕴涵着机器学习中一些重要的基本思想.许多功能更为强大的非线性模型(noninearmode])可在线性模型的基础上通过引入层级结构或高维映射而得,此外,由于 w 直观表达了各属性在预测中的重要性,因此线性模型有很好的可解释性(comprehensibility)。


2.线性回归 linear regression


下面仅针对式 (3.4) 中的数学符号进行解释。首先解释一下符号“argmin”,其中“arg”是“argument”(参数)的前三个字母,“min”是“minimum”(最小值)的前三个字母,该符号表示求使目标函数达到最小值的参数取值。例如式表示求出使目标函数 达到最小值的参数取值 (w∗ , b∗)。最小二乘法image.png


3.对数纪律回归


极大似然估计,对于分类任务的。

image.png


4.线性判断分析


Linear Discriminant Analysis LDA

线性判别分析(LinearDiscriminantAnalysis.简称LDA)是一种经典的线性学习方法,在二分类问题上因为最早由[Fisher,1936] 提出,亦称“Fisher判别分析。

LDA的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离:在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别.图3.3给出了一个二维示意图


5.多分类学习


多分类就是拆分成n(n-1)/2个2分类。 说多了我也不会。


6.类别不平衡


类别不平衡(alass-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况不失一般性,本节假定正类样例较少,反类样例较多在现实的分类学习任务中,我们经常会遇到类别不平衡,例如在通过拆分法解决多分类问题时,即使原始问题中不同类别的训练样例数目相当,在使用OvE、MvM策略后产生的二分类任务仍可能出现类别不平衡现象.因此有必要了解类别不平衡性处理的基本方法。


欠采样法的时间开销通常远小于过采样法,因为前者丢弃了很多反例,使得分类器训练集远小于初始训练集,而过采样法增加了很多正例,其训练集大于初始训练集需注意的是,过采样法不能简单地对初始正例样本进行重复采样,否则会招致严重的过拟合;过采样法的代表性算法SMOTE[Chawaetal.,2002]是通过对训练集里的正例进行插值来产生额外的正例。另一方面欠采样法若随机丢弃反例.可能丢失一些重要信息;欠采样法的代表性算法EasyEnsembleLiucta.,2009则是利用集成学习机制,将反例划分为若干个集合供不同学习器使用,这样对每个学习器来看都进行了欠采样,但在全局来看却不会丢失重要信息.


目录
相关文章
|
2天前
|
自动驾驶 开发者
从《为什么学生不喜欢上学》了解思考和学习
本书以“人类是如何思考和学习的”为线索,阐述了大脑关于学习的若干项基本运作原理,揭示了故事、情感、记忆、背景知识、练习在构建知识和创造持久学习经验中的重要性。
|
算法
西瓜书南瓜书都是好书【决策树】
西瓜书南瓜书都是好书【决策树】
111 0
西瓜书南瓜书都是好书【决策树】
|
机器学习/深度学习 前端开发 数据挖掘
西瓜书南瓜书都是好书【绪论】【模型评估与选择】读书笔记
西瓜书南瓜书都是好书【绪论】【模型评估与选择】读书笔记
108 0
西瓜书南瓜书都是好书【绪论】【模型评估与选择】读书笔记
|
机器学习/深度学习
周志华西瓜书-第六章学习总结
周志华西瓜书-第六章学习总结
周志华西瓜书-第六章学习总结
|
机器学习/深度学习 算法 知识图谱
周志华西瓜书-第五章学习总结
周志华西瓜书-第五章学习总结
周志华西瓜书-第五章学习总结
|
机器学习/深度学习 算法
周志华西瓜书-第四章学习总结
周志华西瓜书-第四章学习总结
周志华西瓜书-第四章学习总结
|
机器学习/深度学习
《考察数据科学家支持向量机(SVM)知识的25道题,快来测测吧》电子版地址
考察数据科学家支持向量机(SVM)知识的25道题,快来测测吧
86 0
《考察数据科学家支持向量机(SVM)知识的25道题,快来测测吧》电子版地址
|
机器学习/深度学习 算法
机器学习-西瓜书、南瓜书第六章
支持向量机(Support Vector Machine),简称SVM,是一种经典的二分类模型,属于监督学习算法。
128 0
机器学习-西瓜书、南瓜书第六章
|
机器学习/深度学习 数据采集 算法
机器学习-西瓜书、南瓜书第三章
回归任务最常用的性能度量是均方误差,因为均方误差有比较好的几何意义,对应了最常用的**“欧氏距离”,最小二乘法就是基于均方误差进行模型求解的。 求解均方误差最小化的过程称为参数估计
123 0
机器学习-西瓜书、南瓜书第三章
下一篇
DataWorks