Machine Learning-L6-逻辑回归

简介: Machine Learning-L6-逻辑回归

1 逻辑回归


逻辑回归/对数几率回归(Logistic/Logit Regression)实际是一种分类学习方法,用于因变量是二分类(0/1,True/False,Yes/No)的情况。


这种方法直接对分类可能性进行建模,无需实现假设数据分布,用线性回归模型的预测结果逼近真实标记的对数几率,可得到近似概率预测。


对数几率函数(Logistic function)是一种Sigmoid函数(S形函数),将z = WTX + b 值转化为一个接近0或1 的y 值,并且输出值在z = 0附件变化很陡。



20200417215306929.png


image.png

由于代价函数image.png为非凸函数,存在多个局部最小值

20200417215522157.png


把逻辑回归看做用线性回归模型的预测结果逼近真实标记的对数几率,根据( 1 ) (


image.png

将y 看做类后验概率估p ( y = 1 ∣ x ) ,则1 − y 是其反例的概率估计:


image.png

p1 = p ( y = 1 ∣ x ) ,  p 0= p ( y = 0 ∣ x )


p1 = 1 − p 0  ,根据( 3 ))得:



image.png

根据( 4 ) ( 5 )


image.png

因此,对于数据集image.png优化目标为:

image.png

其中 p ( y ( i ) ∣ x ( i ) ; θ )  表示给定 x ( i )和参数θ后y ( i ) 的分布,将其看作θ 的函数,即似然函数。


可通过极大似然法(Maximum likelihood method)来估计θ,对L ( θ )取对数:


image.png

l(θ)是连续可导的凸函数,可使用梯度下降、牛顿法求其最优解。


根据( 8 ),定义损失函数:


image.png


20200417215455264.png


合并为下式:

image.png


代价函数:


image.png


2. 交叉熵损失函数


2.1 交叉熵


交叉熵可衡量在真实分布下使用非真实分布所指定的策略消除系统的不确定性所需要付出代价,定义如下:


image.png


其中p ( x i )表示真实分布,q ( x i ) 表示非真实分布,即模型的预测分布。

交叉熵越低,策略就越好,最低的交叉熵对应使用真实分布的信息熵。

在机器学习中,通过最小化交叉熵,使得算法所产生的策略接近最优策略,即算法生成的非真实分布越接近真实分布。


2.2 相对熵


相对熵(relative entropy)又称KL散度(Kullback-Leibler divergence),用来衡量两个概率分布之间的差异,定义如下:


image.png

信息熵为完美编码,交叉熵不完美编码,相对熵(KL散度)是两者的差值(即差异),即交叉熵减去信息熵。


KL散度大于等于0,并且越接近0说明p与q这两个分布越接近,当且仅当p 与q 相等时KL散度等于0。


机器学习的过程就是希望在训练数据上模型学到的分布P_{model}和真实数据的分布P real越接近越好,但由于没有真实数据的分布,只能希望模型学到的分布和训练数据的分布Ptrain尽量相同。


最小化模型分布 P_{model与训练数据上的分布 P_{train}的差异等价于最小化这两个分布间的KL散度KL(P_{training}||P_{model})


2.3 交叉熵损失函数


在二分类中,p为实际值,q 为预测值,用p 分布拟合q 分布,则


image.png

上式与逻辑回归的损失函数(11 式)形式是一致的。


相关文章
|
机器学习/深度学习 算法 vr&ar
Machine Learning-L19-条件随机场
Machine Learning-L19-条件随机场
Machine Learning-L19-条件随机场
|
机器学习/深度学习 算法
Machine Learning-L8-SVM:支持向量机全面解析
Machine Learning-L8-SVM:支持向量机全面解析
Machine Learning-L8-SVM:支持向量机全面解析
|
机器学习/深度学习 算法
周志华《Machine Learning》学习笔记(4)--线性模型
笔记的前一部分主要是对机器学习预备知识的概括。
150 0
周志华《Machine Learning》学习笔记(4)--线性模型
|
机器学习/深度学习 自然语言处理 算法
Machine Learning-L20-降维
Machine Learning-L20-降维
Machine Learning-L20-降维
|
算法 数据建模 数据挖掘
Machine Learning-L4-决策树
Machine Learning-L4-决策树
Machine Learning-L4-决策树
|
存储 算法
Machine Learning-L11-KNN
Machine Learning-L11-KNN
Machine Learning-L11-KNN
|
算法
Machine Learning-L5-回归分析
Machine Learning-L5-回归分析
Machine Learning-L5-回归分析
|
人工智能 算法 关系型数据库
Machine Learning-L17-贝叶斯网络
Machine Learning-L17-贝叶斯网络
Machine Learning-L17-贝叶斯网络
|
机器学习/深度学习 自然语言处理 算法
Machine Learning-L16-概率图模型
Machine Learning-L16-概率图模型
Machine Learning-L16-概率图模型
|
存储 编解码 算法
Machine Learning-L14-聚类(下)
Machine Learning-L14-聚类(下)
Machine Learning-L14-聚类(下)