PySpark数据分析基础:pyspark.mllib.regression机器学习回归核心类详解(二)+代码详解

简介: PySpark数据分析基础:pyspark.mllib.regression机器学习回归核心类详解(二)+代码详解

前言


这段时间PySpark数据分析基础系列文章将持续讲述Pyspark.MLlib这一大块核心内容,更贴近我们的大数据分布式计算结合数据分析。这一部分内容是十分重要且比较难懂不易编程的部分,文章紧接此系列的上篇文章内容:PySpark数据分析基础:pyspark.mllib.regression机器学习回归核心类详解(一)+代码详解


上篇内容我们讲述了一些属于机器学习最基础的内容和相关原理,内容也由浅入深。接下来我们将重点了解每个回归的函数操作以及实现,回归的数学原理和实现方法大家可以订阅我的数学建模专栏详细了解每个回归的原理,这里仅作运用。


若将来想要从事数据挖掘和大数据分析的相关职业,不妨可以关注博主和订阅博主的一些专栏,我将承诺每篇文章将用心纂写长期维护,尽可能输出毕生所学结合如今先有案例项目和技术将每个知识点都讲明白清楚。


希望读者看完能够在评论区提出错误或者看法,博主会长期维护博客做及时更新。


一、RidgeRegressionModel岭回归


岭回归算是回归算法中最经典的算法之一了,原理不在此作介绍,以后会单独开篇文章专门写岭回归算法原理和运用,这里只作运用。


函数语法:


RidgeRegressionModel(weights: pyspark.mllib.linalg.Vector, intercept: float)


参数说明:


  • weight:每个特征计算的权重。
  • intercept:模型的截距。


方法


该函数的方法和LinearRegressionWithSGD的方法是一样的,也有三个方法,分别是:


load(sc, path):登陆一个RidgeRegressionModel模型。

predict(x):预测给定向量或包含自变量值的向量RDD的因变量值。

save(x):保存一个RidgeRegressionModel模型。

该示例缺少train。


二、RidgeRegressionWithSGD随机梯度下降岭回归


使用随机梯度下降训练具有L2正则化的岭回归模型。自版本2.0.0以来已弃用:使用pyspark.ml.regression且elasticNetParam=0.0的线性回归。对于使用GD的RidgeRegression,默认regParam为0.01,而对于线性回归,则为0.0。


以及tarin方法:

classmethod train(data: pyspark.rdd.RDD[pyspark.mllib.regression.LabeledPoint],
                  iterations: int = 100,
                  step: float = 1.0,
                  regParam: float = 0.01,
                  miniBatchFraction: float = 1.0,
                  initialWeights: Optional[VectorLike] = None,
                  intercept: bool = False,
                  validateData: bool = True,
                  convergenceTol: float = 0.001)
 → pyspark.mllib.regression.RidgeRegressionModel

参数说明:


   data:接收类型为Pyspark.RDD。指定训练用到的数据集,可以是LabeledPoint的RDD。

   iterations:接收类型为int,指定迭代次数,默认为100。

   step:接收类型为float,SGD中使用的阶跃参数,默认为1.0。

   regParam:接受类型为float,正则化参数。默认为0.01

   miniBatchFraction:接收类型为float,用于每次SGD迭代的数据部分,默认为1.0.

   initialWeights:接收类型为pyspark.mllib.linalg.Vector,指定初始权重。

   regType:接收类型为str,用于训练模型的正则化子类型。

       使用l1正则化:“l1”

       使用l2正则化:“l2”

       若为None则表示无正则化(默认)

   intercept:接收类型为bool,指示是否使用训练数据的增强表示(即是否激活偏差特征)。(默认值:False)

   validateData:接收类型为bool,指示算法是否应在训练前验证数据。(默认值:True)

   convergenceTol:接收类型为float,决定迭代终止的条件。(默认值:0.001)

 

实例运用

from pyspark.mllib.linalg import SparseVector
from pyspark.mllib.regression import RidgeRegressionWithSGD
from pyspark.mllib.regression import LabeledPoint
data = [
    LabeledPoint(0.0, [0.0]),
    LabeledPoint(1.0, [1.0]),
    LabeledPoint(3.0, [2.0]),
    LabeledPoint(2.0, [3.0])
]
lrm = RidgeRegressionWithSGD.train(sc.parallelize(data), iterations=10)
lrm.predict([10.0])

f390634e48834bcf93eb020aaa77ef9b.png

import os, tempfile
path = tempfile.mkdtemp()
lrm.save(sc, path)
sameModel = RidgeRegressionModel.load(sc, path)
sameModel.predict(np.array([0.0]))

7460e5bada0842b0a75081e9d48d0c94.png

目录
相关文章
|
1月前
|
人工智能 数据可视化 数据挖掘
【python】Python航空公司客户价值数据分析(代码+论文)【独一无二】
【python】Python航空公司客户价值数据分析(代码+论文)【独一无二】
325 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之线性回归与逻辑回归【完整房价预测和鸢尾花分类代码解释】
机器学习之线性回归与逻辑回归【完整房价预测和鸢尾花分类代码解释】
|
1月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
3月前
|
机器学习/深度学习 算法 数据可视化
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-2
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
101 0
|
4天前
|
数据采集 数据可视化 数据挖掘
Python 与 PySpark数据分析实战指南:解锁数据洞见
Python 与 PySpark数据分析实战指南:解锁数据洞见
|
1月前
|
机器学习/深度学习 存储 数据采集
【python】Python大豆特征数据分析 [机器学习版二](代码+论文)【独一无二】
【python】Python大豆特征数据分析 [机器学习版二](代码+论文)【独一无二】
|
1月前
|
机器学习/深度学习 数据可视化 算法
【python】Python大豆特征数据分析 [机器学习版一](代码+论文)【独一无二】
【python】Python大豆特征数据分析 [机器学习版一](代码+论文)【独一无二】
|
1月前
|
机器学习/深度学习 数据可视化 数据挖掘
【python】双十一美妆数据分析可视化 [聚类分析/线性回归/支持向量机](代码+报告)【独一无二】
【python】双十一美妆数据分析可视化 [聚类分析/线性回归/支持向量机](代码+报告)【独一无二】
|
1月前
|
机器学习/深度学习 数据可视化 算法
【python】Python大豆特征数据分析 [机器学习版一](代码+论文)【独一无二】
【python】Python大豆特征数据分析 [机器学习版一](代码+论文)【独一无二】
|
2月前
|
监控 数据可视化 算法
上网行为监控管理:利用R编写的数据分析和可视化代码示例
本文介绍了使用R语言进行上网行为监控管理的方法。通过加载和分析日志数据,如示例代码所示,可以了解用户行为。使用ggplot2绘制时间趋势图以洞察用户访问模式,借助caret进行聚类分析以识别异常行为。此外,利用httr包可自动将数据提交至网站,提升管理效率。R语言为网络安全和行为监控提供了强大工具。
105 0