线性模型
基本形式
一、线性回归
回归任务最常用的性能度量是均方误差,因为均方误差有比较好的几何意义,对应了最常用的**“欧氏距离”,最小二乘法就是基于均方误差进行模型求解的。
求解均方误差最小化的过程称为参数估计
其实就是对w,b分别求导,令其等于0,找到最优的闭式解(解析解)。
线性回归的基本思想是采用对输入样例各个特征进行线性加权的方式得到预测的输出,并将预测的输出和真实值的均方误差最小化。1)如果输入样例只有一个特征,那这个过程就是用一条直线去拟合平面直角坐标系上的点; 2)如果有两个特征,表现在平面直角坐标系上就是用一条直线将用不同标记(如XX和OO)区分的输入样例分割开来;3)如果有两个以上特征,那就会映射到高维空间,用超平面来分割。
对于离散属性,若属性值间存在“序”关系,则可以通过连续化将其转换成连续值;若不存在“序”关系,则有k个属性值,就转换为k维向量。比如,如果属性是有序的话,如“大 中 小”,可按序量化为(1,0.5,0);若属性无序,如瓜的种类有西瓜、黄瓜、冬瓜,就可以用三维向量表示(1,0,0),(0,1,0),(0,0,1)。如果对于无序的属性按有序属性的方式量化,则会不恰当的引入序关系,后面如果有涉及距离的计算,有可能会造成误导。这里实际上对应的是编程实现时的数据预处理部分。
均方误差即函数值与平均数的方差,它是回归任务最常用的度量,它采用的是欧几里得(欧式)距离。基于均方误差来进行模型求解的方法,成为“最小二乘法”。在线性回归中,“最小二乘法”就是找到一条直线,使所有样本到该直线的欧式距离之和最小。
求解线性方程E(w,b)=∑(yi-wxi-b)²中的w和b的过程,称为最小二乘“参数估计”。分别对w和b求偏导,当两个偏导数均为0时(极值点处),得到的w和b为最优解。
对于有多个属性的问题,称为“多元线性回归”。
可逆矩阵又称为满秩矩阵,不可逆矩阵又称为奇异矩阵或降秩矩阵。列数大于行数的矩阵,绝不可能是满秩矩阵。
当数据集构成的矩阵满秩时,有唯一的w使均方误差最小;当数据集中样本属性大于样本个数,即数据集列数大于行数时,矩阵不可能满秩,有多个解使得均方误差最小。
w多解时,该选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见做法是引入正则化项。
考虑单调可微函数g(.),令,使得线性模型推广为广义线型模型。对数线性回归即是广义线性模型在g(.)=ln(.)时的特例。
二、对数几率回归
广义线性模型常用作分类。只需要找出一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。比如二分类,由z=xw+b所得到的预测值z是一个实值,我们必须要把这个实值转换为0或1,因此需要用到“单位阶跃函数”(z小于0则令y=0,z大于0则令y=1,若z=0则任意判断)。然而,"单位阶跃函数"不连续,因此我们需要找一个替代的函数——对数几率函数(逻辑回归模型)。
对数几率回归(逻辑回归)模型 ln(y/(1-y))=xw+b, 其中,y为样本x作为正例的可能性,1-y为样本x作为反例的可能性,则y/(1-y)成为“几率”,反映的是x作为正例的相对可能性,对几率取对数则得到“对数几率”。总结起来,就是:用线性回归模型的预测结果去逼近真实标记的对数几率。
对率(逻辑回归)模型虽然名字是“回归”,实际却是一种分类学习方法。有以下几个重要优点。
1)直接对分类可能性进行建模,不需要事先假设数据分布
2)不仅能预测类别,还可以得到近似概率预测。对需要利用概率辅助决策的任务很有用
3)对率函数是任意阶可导的凸函数,又很好的数学性质,能应用许多数值优化算法。
什么是凸函数的定义和判定? 线性回归的目标函数是一个凸函数。一个闭区间上凸函数,必须在这个区间上满足“两点中点处函数值≤两点各自函数值和的一半”,而不要想当然的理解为形状朝一个方向“凸出”就是凸函数。比如,y=x²是凸函数,y=-x²就不是。从数学角度,可以通过二阶导数判断:若在区间上二阶导数非负,则称为凸函数;若二阶导数在区间上恒大于0,则称为严格凸函数。
以下为参考链接导图:西瓜书自学笔记分享第五章 - 知乎