Spark机器学习管道 - Pipeline

2023-05-31 213

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Spark机器学习管道 - Pipeline

一、实验目的

掌握使用Spark机器学习管道创建小型机器学习工作流。

二、实验内容

1、构建一个机器学习管道，应用LogisticRegression算法，预测一行文本中是否出现了”spark”这个单词。

三、实验原理

Spark ML有一个名为Pipeline的类，它被设计用来管理一系列的阶段，每一个阶段都由PipelineStage来表示。一个PipelineStage既可以是transformer，也可以是estimator。抽象Pipeline是一种estimator。管道以指定的顺序连接多个transformers和estimators，形成机器学习工作流。从概念上讲，它将机器学习工作流中的数据预处理、特征提取和模型训练步骤链接在一起。

管道由一系列阶段组成，每个阶段都是一个Transformer或一个Estimator。它按照指定的顺序运行这些阶段。

下图描述了一个使用管道创建一个小型工作流。

四、实验环境

硬件：x86_64 ubuntu 16.04服务器

软件：JDK 1.8，Spark-2.3.2，Hadoop-2.7.3，zeppelin-0.8.1

五、实验步骤

5.1 启动Spark集群和Zeppelin服务器。

在终端窗口下，输入以下命令，分别启动Spark集群和Zeppelin服务器：

1.  $ cd /opt/spark
2.  $ ./sbin/start-all.sh
3.  $ zeppelin-daemon.sh start

然后使用jps命令查看启动的进程，确保Spark集群和Zeppelin服务器已经正确启动。

2、创建notebook。启动浏览器，访问”http://localhost:9090“, 打开zeppelin notebook首页，点击”Create new note”链接，创建一个新的笔记本。如下图所示：

5.2 使用管道创建一个小型工作流。

这个示例中，管道由两个transformers和一个estimator组成。当调用Pipeline.fit()函数时，包含原始文本的输入DataFrame将被传递给Tokenizer transformer，其输出将被传递到HashingTF transformer，它将单词转换为特征。该Pipeline认识到LogisticRegression是一个estimator，因此它将调用fit函数和计算特征来产生一个LogisticRegressionModel。

1、导入所需的包。在zeppelin中输入以下代码：

1.  import org.apache.spark.ml.{Pipeline, PipelineModel}
2.  import org.apache.spark.ml.classification.LogisticRegression
3.  import org.apache.spark.ml.feature.{HashingTF, Tokenizer}