机器学习:线性判别分析从理论到公式推导(LDA)
数据定义
理论概述与变量定义
为了方便可视化,我们先令数据集的维度p=1,也就是每个观测值$x_i$的维度为1。
从图中我们可以看到,把这些坐标点投影到一维直线w上,可以发现,当观测值$x_i$如果投影到了一个合适的Vector上,就会很容易的在Vector上找到一个threshold(阈值),把⭕️与❌分开,但是如果,没有找到一个很好的Vector,就会像下面这幅图:
我们会发现,这两类数据交替出现,不能找一个一个合适的阈值将这两类数据分开。,所以我们要是想把这些数据分开就需要找到一个合适的Vector的方向。
我们通过观察投影到Vector w上面的坐标,我们发现当两类数据的距离越大分类效果越好,每一个分类内之间的数据约紧凑越好。也就是我们要找到一个Vector可以让投影在Vector 上的数据实现:类内小,类间大,还有一种解释:高内聚,松耦合,我起初听到这几句话的时候,感觉特别晦涩难懂,我们通过数学的口吻来解释:
类内小:也就是一个类别的观测值的在Vector上面的投影值之间方差足够小。
类间大:也就是说两个类别的观测值的在Vector上面的投影值的均值差距足够大。
我们现在已经有数据了,那么我们可以通过这个条件来反推出Vector的方向。
下面我们用公式表示:
观测值在Vector上面的投影可以表示为:$z_i=w^Tx_i$,这里我们假设Vector的模$|w|$的值为1(因为我们主要关心的是Vector的方向,长度是可以自由伸缩的)