PySpark数据分析基础：pyspark.mllib.regression机器学习回归核心类详解(二)+代码详解

2022-10-17 162

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： PySpark数据分析基础：pyspark.mllib.regression机器学习回归核心类详解(二)+代码详解

前言

这段时间PySpark数据分析基础系列文章将持续讲述Pyspark.MLlib这一大块核心内容，更贴近我们的大数据分布式计算结合数据分析。这一部分内容是十分重要且比较难懂不易编程的部分，文章紧接此系列的上篇文章内容：PySpark数据分析基础：pyspark.mllib.regression机器学习回归核心类详解(一)+代码详解

上篇内容我们讲述了一些属于机器学习最基础的内容和相关原理，内容也由浅入深。接下来我们将重点了解每个回归的函数操作以及实现，回归的数学原理和实现方法大家可以订阅我的数学建模专栏详细了解每个回归的原理，这里仅作运用。

若将来想要从事数据挖掘和大数据分析的相关职业，不妨可以关注博主和订阅博主的一些专栏，我将承诺每篇文章将用心纂写长期维护，尽可能输出毕生所学结合如今先有案例项目和技术将每个知识点都讲明白清楚。

希望读者看完能够在评论区提出错误或者看法，博主会长期维护博客做及时更新。

一、RidgeRegressionModel岭回归

岭回归算是回归算法中最经典的算法之一了，原理不在此作介绍，以后会单独开篇文章专门写岭回归算法原理和运用，这里只作运用。

函数语法：

RidgeRegressionModel(weights: pyspark.mllib.linalg.Vector, intercept: float)

参数说明：

weight:每个特征计算的权重。
intercept:模型的截距。

方法

该函数的方法和LinearRegressionWithSGD的方法是一样的，也有三个方法，分别是：

load(sc, path):登陆一个RidgeRegressionModel模型。

predict(x):预测给定向量或包含自变量值的向量RDD的因变量值。

save(x):保存一个RidgeRegressionModel模型。

该示例缺少train。

二、RidgeRegressionWithSGD随机梯度下降岭回归

使用随机梯度下降训练具有L2正则化的岭回归模型。自版本2.0.0以来已弃用：使用pyspark.ml.regression且elasticNetParam=0.0的线性回归。对于使用GD的RidgeRegression，默认regParam为0.01，而对于线性回归，则为0.0。

以及tarin方法：

classmethod train(data: pyspark.rdd.RDD[pyspark.mllib.regression.LabeledPoint],
                  iterations: int = 100,
                  step: float = 1.0,
                  regParam: float = 0.01,
                  miniBatchFraction: float = 1.0,
                  initialWeights: Optional[VectorLike] = None,
                  intercept: bool = False,
                  validateData: bool = True,
                  convergenceTol: float = 0.001)
 → pyspark.mllib.regression.RidgeRegressionModel

参数说明：

data：接收类型为Pyspark.RDD。指定训练用到的数据集，可以是LabeledPoint的RDD。

iterations：接收类型为int，指定迭代次数，默认为100。

step：接收类型为float，SGD中使用的阶跃参数，默认为1.0。

regParam:接受类型为float，正则化参数。默认为0.01

miniBatchFraction：接收类型为float，用于每次SGD迭代的数据部分，默认为1.0.

initialWeights：接收类型为pyspark.mllib.linalg.Vector，指定初始权重。

regType：接收类型为str，用于训练模型的正则化子类型。

使用l1正则化：“l1”

使用l2正则化：“l2”

若为None则表示无正则化(默认)

intercept：接收类型为bool，指示是否使用训练数据的增强表示（即是否激活偏差特征）。（默认值：False）

validateData：接收类型为bool，指示算法是否应在训练前验证数据。（默认值：True）

convergenceTol：接收类型为float，决定迭代终止的条件。（默认值：0.001）

实例运用

from pyspark.mllib.linalg import SparseVector
from pyspark.mllib.regression import RidgeRegressionWithSGD
from pyspark.mllib.regression import LabeledPoint
data = [
    LabeledPoint(0.0, [0.0]),
    LabeledPoint(1.0, [1.0]),
    LabeledPoint(3.0, [2.0]),
    LabeledPoint(2.0, [3.0])
]
lrm = RidgeRegressionWithSGD.train(sc.parallelize(data), iterations=10)
lrm.predict([10.0])

import os, tempfile
path = tempfile.mkdtemp()
lrm.save(sc, path)
sameModel = RidgeRegressionModel.load(sc, path)
sameModel.predict(np.array([0.0]))

PySpark数据分析基础：pyspark.mllib.regression机器学习回归核心类详解(二)+代码详解

前言

一、RidgeRegressionModel岭回归

函数语法：

参数说明：

方法

二、RidgeRegressionWithSGD随机梯度下降岭回归

实例运用

热门文章

最新文章

相关课程

相关电子书

相关实验场景