开发者学堂课程【机器学习算法 :模型原理-1】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7219
模型原理-1
内容介绍
一、逻辑回归算法的介绍
二、分类变量
一、逻辑回归算法的介绍
逻辑回归算法是在回归算法的基础上进行的扩展。所以它也叫广义线性回归中的一种。它的应用范围非常广,并且有比较坚实的数学基础,十大经典算法通常都会有逻辑回归。
二、分类变量
1、基本介绍
分类变量( Categorical Variable ):又称定性变量、离散型变量,观测的个体只能属于几种互不相容的类别中的一种,一般用非数字来表达其类别,这种数据被称为分类变量。与之相对的是连续变量,即定量变量,是由测量、计数或者统计等得到,这些变量具有数值特征。
2. 常见的分类变量
有序变量:没有数量关系,但是有次序关系。比如:年龄层次、收入等级、客户级别等。儿童、中年、青年、老年,可能没有严格的数量关系,不能说一个老年取值是一个儿童取值的几倍。
名义变量:既无等级关系,也无数量关系。比如:性别、天气、职业等。
3. 分类变量和回归分析
自变量中包含了分类变量:名义变量通常使用虚拟变量(哑变量),有序变量通过选取联系函数构建位置结构( Location component )模型或者规模结构( Scale Component )模型
因变量中包含了分类变量:就是最终预测的结果它不再是连续值了,它变成了一个分类变量,这个时候通常不满足回归分析的基本假设,需要使用新的回归方法。
4. 因变量是分类变量
因变量为分类变量,会有以下问题:
误差项非正态分布:误差分布为两点型离散分布,因为它的取值不是0就是1,不是正态分布。
误差项零均值异方差:均值为0,误差的方差依赖于自变量,会随着自变量的不同水平而变化,是异方差。
回归方程限制: ,因为 y 是0-1型随机变量。,数学期望值则,这对回归方程来讲是个特殊的限制。
针对 0-1 型因变量回归,做两方面改进:
回归函数改用限制在(0,1)之间的连续曲线,而不再是直线回归方程,常用的是 Logisitic 函数,其形式为:因变量取值为0,1,不适合直接作为回归的因变量,因为传统的回归模型预测出来的值都是连续值,而改用因变量取1的概率 ,作为回归因变量。这个概率值它也是个连续函数,不过这个连续函数的值被限制在0到1之间了。这个时候如果用概率来作为预测的因变量值的话,实际上这个时候又可以使用回归的方法来做。
5. 因变量是分变量的例子
已知用户的收入信息,去分析用户是否会购买某产品。假设0是不购买,1是购买。如果忽略因变量取值为0或1的问题,直接使用线性回归的思路来处理,建模:其中,是一个二分类变量,取值为:0-不会购买;1-会购买; 是连续变量,表示收入。独立于残差之间也无相关关系,当给定时,的期望值为:
由于的值要么为1,要么为0,因为它取0的概率乘以0就是0了,所以的期望值实际上是其取1的概率。即:
理解上述结论:如果在某用户的收入已知的情况下,那么其购买产品的概率就是它的数学期望。
由于最终的预测结果为某事件发生的概率,因此因变量为二分类的线性回归模型也被称为线性概率模型。(Linear Probbability Model,LPM)
计算该模型的残差:
当 y=0 时,假设它的概率密度函数为 f,则 y=1 时的概率密度函数为 1-f,则其期望值为:
线性回归的基本假设为残差的期望值为0,即E()=0,求得:将 f 代入Var()求得:
说明残差不独立,它依赖于条件概率的值,即依赖于的值,不同的观测值会有不同的方差,比如=1和=0它的方差是不一样的,它的方差齐性这一条就不满足了,即方差非齐性。
6、因变量是分类变量带来的影响
因变量的特殊性质会对线性概率模型的估计和预测带来以下影响:
⑴残差的非齐次性会导致参数估计为有偏估计,各种假设检验将会无效。
⑵线性概率模型预测的事件概率值可能会超出[0,1]的范围,违背概率常识。因为它是一个连续值,预测的时候很有可能超过0到1这个范围,和对概率的认识是相违背的,概率的取值就是0到1。
⑶线性概率模型的函数形式不能拟合自变量和因变量的关系,事实上是个非线性关系安全带。X 可能是个连续值,但 y 可能是0也可能是1,所以它并不是一个真正的非线性关系。
对于因变量为分类变量的线性概率模型:,当时,y=0;当时,y=1;其他时候才符合线性关系:
如果加上强制条件,就不会出现超出0到1范围的违背常识的情况。
这是一个典型的非线性的关系。只有 x 的值在直线描述的范围内时,它才满足这个线性关系。如果 ,y的取值就强制等于0。如果不等于0还是按照线性关系作延长线的话,那事情发生的概率的取值就小于0了;如果 这个范围内,它是满足线性关系的;
如果,y 的取值就强制等于1,否则也违背对概率的认识。事件发生的概率等于1了,这个是违背概率尝试的。这个分段函数就描述了如果因变量是分类变量的时候拟合函数的情况。