Apache Spark机器学习3.4 模型估计

简介:

3.4 模型估计


在上一节完成了特征集选择,接下来需要评估模型参数。我们可以使用MLlib或者R语言进行评估,并准备分布式的计算。

为了简化操作,我们使用Databricks的作业特性。具体来讲,在Databricks环境中,前往“Job”菜单,创建作业,如下图所示:

 

接着,用户可以选择notebook来运行,指定集群并且调度作业。一旦作业被调度,用户可以监视作业的执行,并收集结果。

在3.2节,我们为选择的3个模型准备了一些代码。现在,需要修改这些代码和上一节讨论的最终特征集,以创建最终的notebook。

换句话说,我们有1个因变量和通过PCA和特征选择得到的17个特征。因此,我们需要将这些变量插入到我们第2节开发的代码中,以建立我们的notebook。然后,我们将使用Spark作业特征以分布式的方式执行这些notebook。

3.4.1 MLlib实现

首先,我们为使用线性回归的因变量s1和使用逻辑回归的因变量s2,以及决策树准备数据。然后,将17个选择的特征加入进去形成可以使用的数据集。

对于线性回归,我们使用如下代码:

 

对于逻辑回归,我们使用如下代码:

 

对于决策树,我们使用如下代码:

 

3.4.2 R notebook实现

为了便于对比,将线性回归和SEM方法写在同一个R notebook中,将逻辑回归和决策树写在同一个R notebook中。

然后,主要的工作是为每个工作节点调度估算进程,使用Databricks环境中的JOB特征来收集计算结果。

对于线性回归和SEM方法,执行下面的代码:

 

对于逻辑回归和决策树方法,执行下面的代码:

 

我们为每个产品执行了模型的估计。为了简化讨论,我们聚焦在一个产品上完成模型评估和部署方面的讨论。

相关文章
|
23小时前
|
机器学习/深度学习 人工智能 分布式计算
Java中的机器学习模型集成与训练
Java中的机器学习模型集成与训练
|
1天前
|
机器学习/深度学习 自然语言处理 PyTorch
【机器学习】自然语言处理(NLP)领域革命性突破的模型——Transformer
【机器学习】自然语言处理(NLP)领域革命性突破的模型——Transformer
|
1天前
|
机器学习/深度学习 分布式计算 算法
Java中的机器学习模型集成与训练实践
Java中的机器学习模型集成与训练实践
|
1天前
|
机器学习/深度学习 算法 Java
Java中的机器学习模型集成与训练策略
Java中的机器学习模型集成与训练策略
|
1天前
|
机器学习/深度学习 人工智能 Java
Java与AI集成开发:机器学习模型部署
Java与AI集成开发:机器学习模型部署
|
2天前
|
机器学习/深度学习 数据采集 人工智能
人工智能平台PAI产品使用合集之在使用ARIMA模型预测时,目标是预测输出12个值,但只打印了5个值,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2天前
|
机器学习/深度学习 消息中间件 人工智能
人工智能平台PAI产品使用合集之vLLM是否支持模型长度扩展
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2天前
|
机器学习/深度学习 人工智能 Java
人工智能平台PAI产品使用合集之已经通过自定义镜像部署了一个模型,想要上传并导入其他模型,该如何操作
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4天前
|
机器学习/深度学习 自然语言处理 算法
扩散模型在机器学习中的应用及原理
扩散模型在机器学习中的应用及原理
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
模型可解释性在AI和机器学习中至关重要,尤其在金融、医疗和司法等领域。
**模型可解释性在AI和机器学习中至关重要,尤其在金融、医疗和司法等领域。它建立信任、揭示偏见、辅助错误排查和满足法规要求。方法包括使用直观模型、局部解释器(如LIME)、全局工具(如PDP、SHAP)及神经网络和注意力机制的可视化。可解释性结合领域知识和伦理,推动透明智能系统的构建。**
15 0

推荐镜像

更多