Apache Spark机器学习3.4　模型估计-阿里云开发者社区

Apache Spark机器学习3.4　模型估计

2017-05-02 1505

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

3.4　模型估计

在上一节完成了特征集选择，接下来需要评估模型参数。我们可以使用MLlib或者R语言进行评估，并准备分布式的计算。

为了简化操作，我们使用Databricks的作业特性。具体来讲，在Databricks环境中，前往“Job”菜单，创建作业，如下图所示：

接着，用户可以选择notebook来运行，指定集群并且调度作业。一旦作业被调度，用户可以监视作业的执行，并收集结果。

在3.2节，我们为选择的3个模型准备了一些代码。现在，需要修改这些代码和上一节讨论的最终特征集，以创建最终的notebook。

换句话说，我们有1个因变量和通过PCA和特征选择得到的17个特征。因此，我们需要将这些变量插入到我们第2节开发的代码中，以建立我们的notebook。然后，我们将使用Spark作业特征以分布式的方式执行这些notebook。

3.4.1　MLlib实现

首先，我们为使用线性回归的因变量s1和使用逻辑回归的因变量s2，以及决策树准备数据。然后，将17个选择的特征加入进去形成可以使用的数据集。

对于线性回归，我们使用如下代码：

对于逻辑回归，我们使用如下代码：

对于决策树，我们使用如下代码：

3.4.2　R notebook实现

为了便于对比，将线性回归和SEM方法写在同一个R notebook中，将逻辑回归和决策树写在同一个R notebook中。

然后，主要的工作是为每个工作节点调度估算进程，使用Databricks环境中的JOB特征来收集计算结果。

对于线性回归和SEM方法，执行下面的代码：

对于逻辑回归和决策树方法，执行下面的代码：

我们为每个产品执行了模型的估计。为了简化讨论，我们聚焦在一个产品上完成模型评估和部署方面的讨论。

Apache Spark机器学习3.4　模型估计