1.基本定义
线性模型形式简单、易于建模,但却蕴涵着机器学习中一些重要的基本思想.许多功能更为强大的非线性模型(noninearmode])可在线性模型的基础上通过引入层级结构或高维映射而得,此外,由于 w 直观表达了各属性在预测中的重要性,因此线性模型有很好的可解释性(comprehensibility)。
2.线性回归 linear regression
下面仅针对式 (3.4) 中的数学符号进行解释。首先解释一下符号“argmin”,其中“arg”是“argument”(参数)的前三个字母,“min”是“minimum”(最小值)的前三个字母,该符号表示求使目标函数达到最小值的参数取值。例如式表示求出使目标函数 达到最小值的参数取值 (w∗ , b∗)。最小二乘法
3.对数纪律回归
极大似然估计,对于分类任务的。
4.线性判断分析
Linear Discriminant Analysis LDA
线性判别分析(LinearDiscriminantAnalysis.简称LDA)是一种经典的线性学习方法,在二分类问题上因为最早由[Fisher,1936] 提出,亦称“Fisher判别分析。
LDA的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离:在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别.图3.3给出了一个二维示意图
5.多分类学习
多分类就是拆分成n(n-1)/2个2分类。 说多了我也不会。
6.类别不平衡
类别不平衡(alass-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况不失一般性,本节假定正类样例较少,反类样例较多在现实的分类学习任务中,我们经常会遇到类别不平衡,例如在通过拆分法解决多分类问题时,即使原始问题中不同类别的训练样例数目相当,在使用OvE、MvM策略后产生的二分类任务仍可能出现类别不平衡现象.因此有必要了解类别不平衡性处理的基本方法。
欠采样法的时间开销通常远小于过采样法,因为前者丢弃了很多反例,使得分类器训练集远小于初始训练集,而过采样法增加了很多正例,其训练集大于初始训练集需注意的是,过采样法不能简单地对初始正例样本进行重复采样,否则会招致严重的过拟合;过采样法的代表性算法SMOTE[Chawaetal.,2002]是通过对训练集里的正例进行插值来产生额外的正例。另一方面欠采样法若随机丢弃反例.可能丢失一些重要信息;欠采样法的代表性算法EasyEnsembleLiucta.,2009则是利用集成学习机制,将反例划分为若干个集合供不同学习器使用,这样对每个学习器来看都进行了欠采样,但在全局来看却不会丢失重要信息.