1.低维到高维的映射
根据上一节的结论,我们主要要做的就是解决线性可分的问题,线性可分的问题最后会被转换为一个凸函数的问题就认为是有解的。
但是并不是每个问题都是线性可分的。遇到线性不可分的问题,我们可以将低维映射到高维。比如,二维映射到三维:
当特征空间的维度M上升时,对应的(ω,b)待估计参数的维度也会随之上升,整个模型的自由度也会随之上升,就有更大的概率将低维数据分开。
这里问题就由线性不可分变成了怎么找到φ(x),来完成低维到高维的映射。
2.核函数
为了解决上面找φ(x)的问题,引入了一个新的概念:核函数
核函数是一个实数,φ(x)T,φ(x)是维数相同的两个向量,又因为φ(x)T是和φ(x)的转置,两个维数相同的向量的内积就会得到一个数。
核函数K和φ(x)是一一对应的关系,核函数的形式不能随意的取,要满足下面的两个条件(这是一个定理,先记住就好了):
Mercer定理:
3.对偶问题
原问题:
对偶问题定义:
定理一:
对偶差距:
原问题和对偶问题的差就是对偶差距
强对偶定理:
原问题的目标函数是凸函数的话,限制条件如果是线性函数,那么原问题的解和对偶问题的解是相同的
kkt条件:
总结:
1.先讲了因为很多情况是无法直接做到线性可分的,所以有了低维到高维的映射,来解决地位线性不可分的情况,转换到高维变成线性可分的,再用线性可分的方式来解决问题
2.低维到高维的映射关键是要找到φ(x)Tφ(x),引入核函数K(x1,x2)来替换φ(x)Tφ(x),接着讲到了核函数和φ(x)Tφ(x)是一一对应的,只要知道了其中一个就可以转换为另一个形式,并且讲到了
mercer定理。
3.讲了对偶问题,将原问题的求最小值转换为了最大值,证明了对偶问题是怎么推导出来的,并且引申出对偶差距,强对偶定理,kkt条件等概念。