快速入门Python机器学习(13)

简介: 快速入门Python机器学习(13)

8 支持向量机


8.1 原理


8.1.1 线性可分与线性可分

image.png


  • 在左边的图,我们可以用一条直线区分不同的两类事件;叫做线性可分;
  • 在右边的图,我们找不到一条直线区分不同的两类事件;叫做线性不可分。

在线性不可分的情形下,我们可以将它投射到三维空间不同高度达到线性可分。


image.png

8.1.2 支持向量机原理

在2维空间中

y=kx+b:为一条直线
y1=kx+b+t
y2=kx+b-t

  • 为两条平行,位于y两侧,与y距离相等的两条直线我们如果可以通过一种算法把需要进行二分法的事件映射到y1上侧与y2下侧,就达到二分类目的了。

image.png


3维空间中

z=kx+b:为一个直面
z1=kx+b+t
z2=kx+b-t

  • 为两个直面,位于z两侧,与z距离相等的两个直面,我们如果可以通过一种算法把需要进行二分法的事件映射到z1上侧与z2下侧,就达到二分类目的了。

image.png


同样在n维空间中

xn=kx1+b:为一个直n-1维空间中
xn1=kx1+b+t
xn2=kx1+b-t


为两个直n-1维空间中,位于xn两侧,与xn距离相等的两个n-1维空间,我们如果可以通过一种算法把需要进行二分法的事件映射到xn 1上侧与xn 2下侧,就达到二分类目的了。


8.1.3 支持向量机原理的代码实验

下面我们来用2维情形,通过代码来实现支持向量机原理。

def svm_base():
       myutil = util()
       PI = 3.1415926
       x = np.linspace(0,50,100)
       y = 0 * x
       y0 = 0 * x
       y1 = y + 20
       y2 = y - 20
       plt.plot(x,y,c='black',linestyle='dashdot')
       plt.plot(x,y0,c='black')
       plt.plot(x,y1,c='green')
       plt.plot(x,y2,c='green')
       a = np.random.random([50,1])*50
       c = np.random.random([50]).reshape(-1,1)
       b =np.array([[0 for col in range(2)] for row in range(50)])
       for i in range(50):
              b[i][0] = int(a[i])
              b[i][1] = 0
              if int(a[i]) % 2 ==0:
                     c[i] = 0
              else:
                     c[i] = 1
       plt.scatter(b[:,0],b[:,1],c=c,cmap=plt.cm.spring,s=30)
       title = u"一维空间内的奇偶数是不可以进行线性分割的"
       myutil.show_pic(title)
       #################################################
       # 分离
       x = np.linspace(0,50,100)
       y = 0 * x
       y0 = 0 * x
       y1 = y + 20
       y2 = y - 20
       plt.plot(x,y,c='black')
       plt.plot(x,y0,c='black',linestyle='dashdot')
plt.plot(x,y1,c='green')
       plt.plot(x,y2,c='green')
       for i in range(50):
              if c[i] == 0:
                     b[i][1] = 20+random.randint(0,40)
              else:
                     b[i][1] = -20-random.randint(0,40)
       plt.scatter(b[:,0],b[:,1],c=c,cmap=plt.cm.spring,s=30)
       title = u"分离到二维空间中可以进行线性分割的"
       myutil.show_pic(title)
       ############################################
       # 旋转
       for i in range(50):
              x = b[i][0]
              y = b[i][1]
              b[i][0] = x*math.cos(PI/4) - y*math.sin(PI/4)
              b[i][1] = x*math.sin(PI/4) + y*math.cos(PI/4)
       plt.scatter(b[:,0],b[:,1],c=c,cmap=plt.cm.spring,s=30)
       x = np.linspace(min(b[:,0])-5,max(b[:,0])+5,100)
       yx = np.linspace(-60,100,100)
       xx = np.linspace(0,0,100)
       y = x
       y0 = 0 * x
       y1 = x + 20
       y2 = x - 20
       plt.plot(x,y,c='black')
       plt.plot(x,y0,c='black',linestyle='dashdot') # X轴
       plt.plot(xx,yx,c='black',linestyle='dashdot')# Y轴
       plt.plot(x,y1,c='green')
       plt.plot(x,y2,c='green')
       title = u"为了更普遍性,进行旋转"
       myutil.show_pic(title)
       ##########################################
       # 移动
       for i in range(50):
              y = b[i][1]
              b[i][1] = y + 40
       plt.scatter(b[:,0],b[:,1],c=c,cmap=plt.cm.spring,s=30)
       x = np.linspace(min(b[:,0])-5,max(b[:,0])+5,100)
       yx = np.linspace(-20,140,100)
       xx = np.linspace(0,0,100)
       y = x+ 40
       y0 = 0 * x
       y1 = x + 20 + 40
       y2 = x - 20 + 40
       plt.plot(x,y,c='black')
       plt.plot(x,y0,c='black',linestyle='dashdot') # X轴
       plt.plot(xx,yx,c='black',linestyle='dashdot')# Y轴
       plt.plot(x,y1,c='green')
       plt.plot(x,y2,c='green')
       title = u"进一步更普遍性,进行平移"
       myutil.show_pic(title)

image.png

image.png

image.png

image.png


8.1.4 支持向量机的分类

最大边界超平面: Maximum Margin Separating Hyperplane。中间这条线到和所有支持向量的距离都是最大的。


离这个超平面最近的点就是"支持向量",点到超平面的距离叫做间隔,支持向量机的意思就是使超平面和支持向量之间的间隔尽可能的大。


支持向量机分为:

  • SVM=Support Vector Machine:支持向量机
  • SVC=Support Vector Classification :支持向量机用于分类
  • SVR=Support Vector Regression :支持向量机用于回归分析

SVC与SVR又分为线性向量机分类算法LinearSVCLinearSVR


下表为sklearn中支持SVC、SVR、LinearSVCLinearSVR用到的类。


方法

解释

sklearn.svm.SVC

支持向量机分类算法

sklearn.svm.SVR

支持向量机回归算法

sklearn.svm.LinearSVC

线性向量机分类算法

sklearn.svm.LinearSVR

线性向量机回归算法


8.1.5 支持向量机的核

支持向量机还有一个很重要的概念:核

def sigmoid(x):
    return 1. / (1 + np.exp(-x))
def kernel():
        myutil = util()
        fig = plt.figure()
        ax = fig.gca(projection='3d')
        x = np.linspace(-40, 40, 100)
        y = np.linspace(-40, 40, 100)
        z = x*y + 40
        ax.plot(x, y, z, label=u"线性核")
        ax.legend()
        title = u"线性核"
        myutil.show_pic(title)
        fig = plt.figure()
        ax = fig.gca(projection='3d')
        x = np.linspace(-40, 40, 100)        
        y = np.linspace(-40, 40, 100)
        z = (5*x*y+4)**3
        ax.plot(x, y, z, label=u"多项式核")
        ax.legend()
        title = u"多项式核"
        myutil.show_pic(title)
        fig = plt.figure()
        ax = fig.gca(projection='3d')
        x = np.linspace(-40, 40, 100)
        y = np.linspace(-40, 40, 100)
        z = sigmoid(5*x*y+4)
        ax.plot(x, y, z, label=u"Sigmoid核")
        ax.legend()
        title = u"Sigmoid核"
        myutil.show_pic(title)

image.png

image.png

image.png



包括线性核、多项核和和Sigmoid核。


1.线性核(Linear Kernel)

image.png

线性核,主要用于线性可分的情况,我们可以看到特征空间到输入空间的维度是一样的,在原始空间中寻找最优线性分类器,具有参数少速度快的优势。对于线性可分数据,其分类效果很理想,因此我们通常首先尝试用线性核函数来做分类,看看效果如何,如果不行再换别的。


2.多项式核(Polynomial Kernel)

image.png

多项式核函数可以实现将低维的输入空间映射到高纬的特征空间多项式核适合于正交归一化(向量正交且模为1)数据。属于全局核函数,允许相距很远的数据点对核函数的值有影响。参数d越大,映射的维度越高,计算量就会越大。但是多项式核函数的参数多,当多项式的阶数d比较高的时候,由于学习复杂性也会过高,易出现“过拟合"现象,核矩阵的元素值将趋于无穷大或者无穷小,计算复杂度会大到无法计算。


3,Sigmoid核(Sigmoid Kernel)

Sigmoid核函数来源于神经网络,被广泛用于深度学习和机器学习中

image.png

采用Sigmoid函数作为核函数时,支持向量机实现的就是一种多层感知器神经网络。

还有径向基核函数(Radial Basis Function)/ 高斯核(Gaussian Kernel)、字符串核函数、傅立叶核和样条核。

目录
相关文章
|
5天前
|
机器学习/深度学习 数据采集 算法
Python机器学习:Scikit-learn库的高效使用技巧
【10月更文挑战第28天】Scikit-learn 是 Python 中最受欢迎的机器学习库之一,以其简洁的 API、丰富的算法和良好的文档支持而受到开发者喜爱。本文介绍了 Scikit-learn 的高效使用技巧,包括数据预处理(如使用 Pipeline 和 ColumnTransformer)、模型选择与评估(如交叉验证和 GridSearchCV)以及模型持久化(如使用 joblib)。通过这些技巧,你可以在机器学习项目中事半功倍。
16 3
|
10天前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
机器学习基础:使用Python和Scikit-learn入门
20 1
|
16天前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
21天前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
【10月更文挑战第12天】本文介绍了如何使用Python和Scikit-learn进行机器学习的基础知识和入门实践。首先概述了机器学习的基本概念,包括监督学习、无监督学习和强化学习。接着详细讲解了Python和Scikit-learn的安装、数据处理、模型训练和评估等步骤,并提供了代码示例。通过本文,读者可以掌握机器学习的基本流程,并为深入学习打下坚实基础。
16 1
|
22天前
|
机器学习/深度学习 API 计算机视觉
基于Python_opencv人脸录入、识别系统(应用dlib机器学习库)(下)
基于Python_opencv人脸录入、识别系统(应用dlib机器学习库)(下)
18 2
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
24天前
|
机器学习/深度学习 人工智能 算法
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
玉米病害识别系统,本系统使用Python作为主要开发语言,通过收集了8种常见的玉米叶部病害图片数据集('矮花叶病', '健康', '灰斑病一般', '灰斑病严重', '锈病一般', '锈病严重', '叶斑病一般', '叶斑病严重'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。再使用Django搭建Web网页操作平台,实现用户上传一张玉米病害图片识别其名称。
49 0
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
|
1月前
|
机器学习/深度学习 算法 决策智能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
|
4天前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的决策树算法
【10月更文挑战第29天】本文将深入浅出地介绍决策树算法,一种在机器学习中广泛使用的分类和回归方法。我们将从基础概念出发,逐步深入到算法的实际应用,最后通过一个代码示例来直观展示如何利用决策树解决实际问题。无论你是机器学习的初学者还是希望深化理解的开发者,这篇文章都将为你提供有价值的见解和指导。
|
28天前
|
机器学习/深度学习 算法 Python
探索机器学习中的决策树算法:从理论到实践
【10月更文挑战第5天】本文旨在通过浅显易懂的语言,带领读者了解并实现一个基础的决策树模型。我们将从决策树的基本概念出发,逐步深入其构建过程,包括特征选择、树的生成与剪枝等关键技术点,并以一个简单的例子演示如何用Python代码实现一个决策树分类器。文章不仅注重理论阐述,更侧重于实际操作,以期帮助初学者快速入门并在真实数据上应用这一算法。