SMO最小序列算法推导(部分)
全部推导内容见我的csdn博客:
https://blog.csdn.net/qq_24819773/article/details/86513166
SVM算法的优缺点
优点:
1、使用核函数可以向高维空间进行映射;
2、使用核函数可以解决非线性的分类;
3、分类思想很简单,就是将样本与决策面的间隔最大化;
4、分类效果较好;
缺点:
1、对大规模数据训练比较困难;
2、无法直接支持多分类,但是可以使用间接的方法来做。
PCA算法的改进和优化
1、最小二乘SVM(LS-SVM)算法
LS-SVM是SVM的一个变体。它从机器学习损失函数入手,在其优化的目标函数中使用二范数,并利用等式约束条件代替SVM标准算法中的不等式约束条件,使得LS-SVM方法的优化问题的求解最终变为一组线性方程的求解。
传统SVM中,约束条件是不等式,离分离超平面近的元素向量是支持向量,强烈影响分离平面的计算,离超平面远的向量影响比较小;因此如果分离集合之前的边界不清晰,会影响计算结果。而LS-SVM中约束条件是等式,因此,离分离超平面无论远近都对分离超平面有影响,不过分离超平面不如传统的SVM精准;而且一旦产生相当数量的大的离群点,会严重影响分离超平面的计算。LS-SVM的最终结果,近似于将两个分离集合的所有元素到分离平面的距离都限定在1+n,n是可接受误差;
LS-SVM方法通过求解线性方程组实现最终的决策函数,在一定程度上降低了求解难度,提高了求解速度,使之更适合于求解大规模问题,更适合于实际问题,虽然不一定能获得全局最优解,但仍可获得较高的识别率;
2、概率SVM
概率SVM可以视为Logistic回归和SVM的结合,SVM由决策边界直接输出样本的分类,概率SVM则通过sigmoid函数计算样本属于其类别的概率。具体地,在计算标准SVM得到学习样本的决策边界后,概率SVM通过缩放和平移参数对决策边界进行线性变换,并使用最大似然估计得到结果,将样本到线性变换后超过超平面的距离作为sigmoid函数的输入从而得到概率。
SKlearn算法的实践
SVM算法实践
执行结果: