线性分类|机器学习推导系列(四)

简介: 线性分类|机器学习推导系列(四)

一、从线性回归到线性分类


  1. 线性回归的特性


8ZBG}2DWS$J_V61L9@UX0XH.png

6H)M1FQT54MW6P5R[9X6VB8.png

3`R)[420FIR81HTXKCL8(97.png

全局性指的是线性回归是在整个特征空间上学习,并没有将特征空间进行划分然后在每个划分上学习。


数据未加工指的是线性回归直接在给定数据上进行学习没有对数据进行其他的加工。

其他的学习算法跟线性回归比较起来打破了其某些特性,在上面的树状图中也举出了一些例子。


  1. 从线性回归到线性分类

CNXK5]XD%O5(7%9T$V)P1RN.png


线性回归经过一个激活函数然后根据一个阈值来获得分类的结果,如此就成为线性分类,也可以理解为将ZUQMNRYE5VV94D6NN[JM`%X.png降维到一维而获得分类结果。

LTVCZ_VLDO]{ZLNR@H6K_]8.png


  1. 硬分类和软分类

]_5F}FAR7_ZJ9R9TZHGQ[TN.png


二、感知机


  1. 概述

KFQ3{OBL})RNK6W~X3E44R1.png


  1. 学习策略

BH{LK(`HMH2X9K)M]%}PT@F.png

可以确定对于误分类的数据}0M6_S9TDNY6CQ9E0NXT973.png来说,满足以下关系:

_)FPM514)@T_L4F4~X$AH{G.png


损失函数的一个自然选择是误分类点的个数,即O9[4QALT~B%CX(%D)H{38LI.png,但是这样的损失函数是不可导的,不易优化。因此采用另一种损失函数,即误分类点到超平面的总距离。

JDCC3%V_$%)W(G5`%}{1NML.png空间中任一点ABI%VRRI)%[(C2L_F($)}VH.png到超平面的距离为:

H5Y(M5AO@E$AZ0SF7PCYBUH.png

因此所有误分类点到超平面)F10}]$9)T{IWF}BI4GZ899.png的总距离为:

KW0_W98_IR1NIPSQFEC]9$G.png不考虑F872C[T15FHN38C@E{8P$ZL.png,就得到感知机的损失函数:

09B]D5U{8YLG)J]2VOSQMDL.png


  1. 学习算法


计算损失函数的梯度:

H6IMHW6KL@XKI8ZBO1(02GW.png

6RY0V4`LE5NDADP_D]SDAQ4.png

①选取初值H`J]MSZ{WC20N18W}TBF6)Y.png

②在训练集中选取数据F6IW24XL1HMFW5X$NHRF@95.png

③如果ZF]F8`JDNM~NAEBZX[RL%BH.png,则更新参数:

I]U_4QT(95`B97S(9ZMD6(K.png


④转至②,直到训练集中没有误分类点。


截止这里我们都是假设数据是线性可分的,如果线性不可分,可以用口袋算法(pocket algorithm),这里不做过多介绍。


三、线性判别分析


  1. 概述


线性判别分析可用于处理二分类问题,其过程是寻找一个最佳的投影方向,使得样本点在该方向上的投影符合类内小、类间大的思想,具体指的是类内的方差之和小,类间的均值之差大。


O]~}R@B{)]Q60VTWKPHY5`G.png

                                                   LDA


假设有以下数据:

CMTDWZ6O4`5IIIU1Y{Y)G`D.png


  1. 线性判别分析的损失函数

11MMBVSH(RCDOKYGRJP`~%M.png

S]K(W[UD8{CI3}EB4W96K7H.png


接下来计算每一类的均值和方差:


FEJD04]P_UHY8P_HY}YI1Y3.png


定义损失函数:

8U0E)74E@V2LFSGETJGVKAQ.png

极大化KPN1S%FF$RGZ1V@)A[V3H63.png就可以使得类内的方差之和小,类间的均值之差大。


  1. 线性判别分析的求解

AY~30L0)~N0}HTGG($~O$_0.png

3DW_345MPD`E79IXFNQ2VWH.png

四、逻辑回归


  1. 概述

F(F$8FYK}6NC~(K@1K8IIAV.png

假设有如下数据:

8XQWU~6IMQ~DAZ(}J536B$B.png

V8XQ6S@XC70YD`}6JLLRZ`1.png

GD[HXR[{S74W`~BF$X`S9EH.png

其图像为:

3W9`2H)DQLQRRO4JZERBW@M.png

                                          sigmoid函数


  1. 逻辑回归的模型

O(~BX0HZQOUQAV))R]~DCVD.png

83)3Q}3(NBO156Z7PW9CU6F.png


  1. 逻辑回归的求解


7K8B$`_54QX2W`1[MZR6MC4.png


因此这里的极大似然估计就等价于极小化交叉熵损失函数。


求导的过程较为简单,就不做展示了。


五、高斯判别分析


  1. 概述


假设有如下数据:

6FN7Y))F0O86O%OO5VDZN4T.png


  1. 高斯判别分析的模型

在高斯判别分析中样本数据的类别6VUT[)~%)381(I6WVS~{KNH.png在给定的情况下服从伯努利分布,另外不同类别中的样本数据分别服从多元高斯分布,因此有以下模型:


55BP%K2WHD2G%77`H8J~FW4.png

这里假设两个高斯分布具有同样的方差。


  1. 高斯判别模型的求解


  • 损失函数

63F0PIGEU$BUZ770XK[ZX8M.png

)Z~]]9_]UGH[SPM{TO%39WH.png

然后使用极大似然估计法来求解:

(FZNGDX8O1J9ZP[A5T$Q2~P.png

B5KI$FZUD]XCD`}XPFI(WJK.png

V3GH3]2BH8LG9%0SHUALHK1.pngDBRU}~`L$8NVJ~A0){%(6RD.png

以下是求解过程中用到的一些预备知识:


FY3@61VWZ2M[}E)HML`E)TJ.png


两类数据按照以下两个集合来表示:


ND2P$5RW7C}FUM%7`H}V)NO.png


然后进行求解:


2Z[}%(I~T11$[6@YE`~S4VU.png


然后求解上式中的通项:


NHKDO5[(4N[H7P14Y06R}HG.png

]MA9ZC`PFZ`XMQNYT{$ZS(V.png

六、朴素贝叶斯


  1. 概述


假设有如下数据:

OVL[@)@{5KA21M4K1E6)09O.png


  1. 朴素贝叶斯的模型


朴素贝叶斯分类器可以用来做多分类,其基本思想是条件独立性假设,即假设数据的每个特征之间是相互独立的,其形式化表达为


Y[@P618SPS2Z_G@~$L{%~TF.png


朴素贝叶斯分类器是最简单的概率图模型(有向图):


TWMGI9DA7PGD3QFG${6QBMO.png

                                           概率图

V@%2)]$1)X}RSRM9]UA~~)N.png


N[%@233~7~UC4EB_}K1@9Y1.png


至于其求解过程则可以根据具体情况使用极大似然估计法即可。对于朴素贝叶斯方法重要的是理解其条件独立性假设,这个假设也是其被称为“朴素(Naive)”的原因。


参考资料


ref:李航《统计学习方法》

相关文章
|
机器学习/深度学习
受限玻尔兹曼机|机器学习推导系列(二十五)
受限玻尔兹曼机|机器学习推导系列(二十五)
677 0
受限玻尔兹曼机|机器学习推导系列(二十五)
|
机器学习/深度学习 人工智能 移动开发
【机器学习】线性分类——高斯判别分析GDA(理论+图解+公式推导)
【机器学习】线性分类——高斯判别分析GDA(理论+图解+公式推导)
285 0
【机器学习】线性分类——高斯判别分析GDA(理论+图解+公式推导)
|
机器学习/深度学习 人工智能 算法
【机器学习】线性分类——线性判别分析LDA(理论+图解+公式推导)
【机器学习】线性分类——线性判别分析LDA(理论+图解+公式推导)
186 0
【机器学习】线性分类——线性判别分析LDA(理论+图解+公式推导)
|
机器学习/深度学习 算法 数据挖掘
100天搞定机器学习|day44 k均值聚类数学推导与python实现
100天搞定机器学习|day44 k均值聚类数学推导与python实现
100天搞定机器学习|day44 k均值聚类数学推导与python实现
|
机器学习/深度学习 算法
100天搞定机器学习|day38 反向传播算法推导
100天搞定机器学习|day38 反向传播算法推导
100天搞定机器学习|day38 反向传播算法推导
|
机器学习/深度学习 算法
Sigmoid信念网络|机器学习推导系列(二十八)
Sigmoid信念网络|机器学习推导系列(二十八)
217 0
Sigmoid信念网络|机器学习推导系列(二十八)
|
机器学习/深度学习 算法
近似推断|机器学习推导系列(二十七)
近似推断|机器学习推导系列(二十七)
120 0
近似推断|机器学习推导系列(二十七)
|
机器学习/深度学习 算法
配分函数|机器学习推导系列(二十六)
配分函数|机器学习推导系列(二十六)
229 0
配分函数|机器学习推导系列(二十六)
|
机器学习/深度学习
高斯过程回归|机器学习推导系列(二十四)
高斯过程回归|机器学习推导系列(二十四)
459 0
高斯过程回归|机器学习推导系列(二十四)
|
机器学习/深度学习
贝叶斯线性回归|机器学习推导系列(二十三)
贝叶斯线性回归|机器学习推导系列(二十三)
279 0
贝叶斯线性回归|机器学习推导系列(二十三)