一、业务场景

受某房产中介委托，需开发一套机器学习系统，当用户将要售卖的二手房挂到二手房网站上时，该机器学习系统能自动根据该二手房的相关信息给出合理的销售价格预测，以指导客户报价。

二、数据集说明

本案例所使用的数据集为纯文本文件，说明如下：

数据集路径：/data/dataset/ml/house/train.csv

三、操作步骤

阶段一、启动HDFS、Spark集群服务和zeppelin服务器

1、启动HDFS集群

在Linux终端窗口下，输入以下命令，启动HDFS集群：

1.  $ start-dfs.sh

2、启动Spark集群

在Linux终端窗口下，输入以下命令，启动Spark集群：

1.  $ cd /opt/spark
2.  $ ./sbin/start-all.sh

3、启动zeppelin服务器

在Linux终端窗口下，输入以下命令，启动zeppelin服务器：

1.  $ zeppelin-daemon.sh start

4、验证以上进程是否已启动

在Linux终端窗口下，输入以下命令，查看启动的服务进程：

1.  $ jps

如果显示以下6个进程，则说明各项服务启动正常，可以继续下一阶段。

2288 NameNode
2402 DataNode
2603 SecondaryNameNode
2769 Master
2891 Worker
2984 ZeppelinServer

阶段二、准备案例中用到的数据集

1、将本案例要用到的数据集上传到HDFS文件系统的/data/dataset/ml/目录下。在Linux终端窗口下，输入以下命令：

1.  $ hdfs dfs -mkdir -p /data/dataset/ml
2.  $ hdfs dfs -put /data/dataset/ml/house /data/dataset/ml/

2、在Linux终端窗口下，输入以下命令，查看HDFS上是否已经上传了该数据集：

1.  $ hdfs dfs -ls /data/dataset/ml/house

这时应该看到house目录及其中的训练数据集已经上传到了HDFS的/data/dataset/ml/目录下。

阶段三、对数据集进行探索和分析

1、新建一个zeppelin notebook文件，并命名为house_project。

2、先导入案例中要用到的机器学习库。在notebook单元格中，输入以下代码：

1.  // 导入相关的包
2.  import org.apache.spark.sql.functions._
3.  import org.apache.spark.ml.Pipeline
4.  import org.apache.spark.ml.feature.{StringIndexer,VectorAssembler,RFormula}
5.  import org.apache.spark.ml.regression.LinearRegression
6.  import org.apache.spark.ml.evaluation.RegressionEvaluator
7.  import org.apache.spark.mllib.evaluation.RegressionMetrics

同时按下【Shift+Enter】键，执行以上代码，输出内容如下：

import org.apache.spark.sql.functions._
import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.feature.{StringIndexer, VectorAssembler, RFormula}
import org.apache.spark.ml.regression.LinearRegression
import org.apache.spark.ml.evaluation.RegressionEvaluator
import org.apache.spark.mllib.evaluation.RegressionMetrics

3、加载训练数据集。在notebook单元格中，输入以下代码：

1.  // 加载数据文件
2.  val file = "hdfs://localhost:9000/data/dataset/ml/house/train.csv"
3.  val house_data = spark.read.option("header", "true").option("inferSchema","true").csv(file)

同时按下【Shift+Enter】键，执行以上代码，输出内容如下：

file: String = /data/dataset/ml/house/train.csv
house_data: org.apache.spark.sql.DataFrame = [Id: int, MSSubClass: int … 79 more fields]

由以上输出内容可以看出，该数据集共有81个字段。

4、简单数据探索，查看数据模式。在notebook单元格中，输入以下代码:

1.  // 简单的数据探索
2.  house_data.printSchema