基于SVM-支持向量机解决波士顿房价预测回归问题

简介: 基于SVM-支持向量机解决波士顿房价预测回归问题

认识SVM——支持向量机


什么是支持向量机


支持向量机(SVM),Supported Vector Machine,基于线性划 分,输出一个最优化的 分隔超平面,该超平面不但能将两类正确分开,且使分类间隔 (margin)最大



所有训练数据点距离最优分类超平面的距离都要大于支持向量距 离此分类超平面的距离

支持向量点到最优分类超平面距离越大越好

注意: SVM的终极目标是求出一个最优的线性分类超平面


SVM的核函数


       当在低维空间中,不能对样本线性可分时,将低维空间中的点 映射到高维空间中,使 它们成为线性可分的,再使用线性划分的原理来判断分类边界。 这里有个问题:如果直接采用这种技术在高维空间进行分类或 回归,可能在高维特征 空间运算时出现"维数灾难"!采用核函数技术(kernel trick)可以有效 地解决这样的问题 直接在低维空间用核函数,其本质是用低维空间中的更复杂的 运算代替高维空间中的普 通内积。


常用的核函数


linear:线性核函数 当训练数据线性可分时,一般用线性核函数,直接实现可分

poly:多项式核函数

rbf:径向基核函数/高斯核函数(Radial Basis Function Kernel) gamma值越小,模型越倾向于欠拟合 gamma值越大,模型越倾向于过拟合

sigmod:sigmod核函数

SVM的"硬间隔"与"软间隔"


硬间隔


当支持向量机(SVM)要求所有样本都必须划分正确,这称为 “硬间隔”(hard margin)。


软间隔


到目前为止,我们一直假定存在一个超平面能将不同类的样本 完全划分开。然而,在现 实任务中往往很难确定合适的核函数使得训练样本线性可分(即使 找到了,也很有可能 是在训练样本上由于过拟合所造成的) 缓解该问题的一个办法是允许支持向量机在一些样本上出错, 这称为"软间隔"(soft margin)。



软间隔支持向量机的数学表达式为(L1正则):



或者(L2正则)



注意: 正则项前面的常数C,C越大说明相应的容错空间越小,若C 取正无穷,则"逼迫"着每个ζ(也称为“松弛变量”)都必须等于 0,此时的Soft Margin SVM就变成了Hard Margin SVM.



实战——SVM解决房价预测回归问题


SVM解决回归问题的关键思想


SVM解决回归问题的时候,期望margin里的样本点越多越好。



sklearn中使用SVM解决回归问题,使用sklearn.svm.SVR(可以传 入不同的核函数)

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
# 加载数据集
boston = datasets.load_boston()  # 加载波士顿房子数据集
X = boston.data  # 样本特征
y = boston.target  # 样本标签(房价)
# 拆分数据集
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=666)
# 使用SVR回归
from sklearn.svm import SVR
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
def SVRCode():
    return Pipeline([
        ("std",StandardScaler()),   # 特征标准化
        ("svr",SVR(kernel="rbf",C=15))  # SVM解决回归问题
    ])
pipe = SVRCode()
pipe.fit(X_train,y_train)   # 按照Pipeline封装的操作顺序对训练集处理
pipe.score(X_test,y_test)   # 测试集上进行回归效果评价

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之线性回归与逻辑回归【完整房价预测和鸢尾花分类代码解释】
机器学习之线性回归与逻辑回归【完整房价预测和鸢尾花分类代码解释】
|
机器学习/深度学习 Web App开发 算法
ML之RF:随机森林RF算法简介、应用、经典案例之详细攻略
随机森林指的是利用多棵决策树对样本进行训练并预测的一种分类器。它包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林是一种灵活且易于使用的机器学习算法,即便没有超参数调优,也可以在大多数情况下得到很好的结果。随机森林也是最常用的算法之一,因为它很简易,既可用于分类也能用于回归。
ML之RF:随机森林RF算法简介、应用、经典案例之详细攻略
|
计算机视觉 Python
OpenCV多模板匹配讲解与匹配汽车实战(附Python源码)
OpenCV多模板匹配讲解与匹配汽车实战(附Python源码)
776 0
OpenCV多模板匹配讲解与匹配汽车实战(附Python源码)
|
机器学习/深度学习 算法 数据处理
《零基础实践深度学习》波士顿房价预测任务1.3.3.4训练过程
这篇文章详细阐述了如何使用线性回归对波士顿房价进行预测,包括构建神经网络模型、数据处理、模型设计、训练过程、梯度下降法以及随机梯度下降法(SGD)的应用,并提供了完整的Python代码实现。
|
NoSQL Java Redis
redis连接池参数
如果系统启动完马上就会有很多的请求过来,那么可以给redis连接池做预热,比如快速的创建一些redis连接,执行简单命令,类似ping(),快速的将连接池里的空闲连接提升到minldle的数量。
829 0
|
存储 弹性计算 算法
SSH学习(三)- SSH协议中的Public Key Algorithm
在SSH协议中,有两个地方涉及到公钥算法,分别是: 1. 服务端认证:服务端在进行密钥协商的时候证明自己身份,防止中间人攻击,此时为SSH-TRANS协议发生的事情; 2. 客户端认证:客户端通过PublicKey方式证明自己身份,完成SSH登录认证,此时SSH-USERAUTH发生的事情; 这两种情况下的公钥算法使用的是同一个概念,接下来本文将主要基于PublicKey公钥认证方式,学习对应的内容。
2178 1
SSH学习(三)- SSH协议中的Public Key Algorithm
|
机器学习/深度学习 资源调度 PyTorch
【从零开始学习深度学习】15. Pytorch实战Kaggle比赛:房价预测案例【含数据集与源码】
【从零开始学习深度学习】15. Pytorch实战Kaggle比赛:房价预测案例【含数据集与源码】
|
机器学习/深度学习 测试技术 开发者
最新PyCharm下载安装以及Python环境搭建教程(含Python入门教程)
最新PyCharm下载安装以及Python环境搭建教程(含Python入门教程)
3334 1
|
机器学习/深度学习 Python
【统计学习方法】线性可分支持向量机对鸢尾花(iris)数据集进行二分类
【统计学习方法】线性可分支持向量机对鸢尾花(iris)数据集进行二分类
874 0
【统计学习方法】线性可分支持向量机对鸢尾花(iris)数据集进行二分类
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习】决策树、K近邻、神经网络等模型对Kaggle房价预测实战(附源码和数据集)
【Python机器学习】决策树、K近邻、神经网络等模型对Kaggle房价预测实战(附源码和数据集)
516 0