Apache Spark机器学习.1.7 机器学习工作流示例-阿里云开发者社区

开发者社区> 华章计算机> 正文

Apache Spark机器学习.1.7 机器学习工作流示例

简介:
+关注继续查看

1.7 机器学习工作流示例


为了进一步了解学习机器学习的工作流,在这里让我们学习一些例子。

本书后续章节会研究风险建模、欺诈检测、客户视图、流失预测和产品推荐。对于诸如此类的项目,目标往往是确定某些问题的原因,或者建立一个因果模型。下面是使用工作流建立一个因果模型的一个例子。

1.检查数据结构,以确保更好地理解数据:

数据是横截面数据吗?是隐含着时间信息的合并数据吗?

是否使用了分类变量?

2.检查缺失值:

不知道或者忘记了一个答案可能会被记录为一个中立或特殊的类别

一些变量可能有很多缺失值

根据需要重新记录一些变量

3.进行一些描述性研究,开始讲故事:

使用比较方法和交叉列表

检查一些关键变量的变异性(标准差和方差)

4.ind变量(外生变量)的选择组:

作为问题原因的候选

5.基本描述性统计:

所有变量的均值、标准差和频率

6.测量工作:

研究一些测量值的规模(efa探索性因子分析在这里可能是有用的)

形成测量模型

7.本地模型:

从全局中找出部分以探索其中关系

使用交叉列表

图表展示

使用逻辑回归

使用线性回归

8.开展一些偏相关分析,以帮助模型设定。

9.使用(8)的结果,提出结构方程模型:

确定主结构和次结构

将测量和结构模型进行关联

10.初次拟合:

运用SPSS为lisrel或Mplus创建数据集

使用lisrel或Mplus编程

11.模型修正:

使用SEM结果(主要模型拟合指数)来指导

再次分析偏相关性

12.诊断:

分布

残差

曲线

13.到这里我们应该可以开展最终模型估计了:

如果不能,请重复步骤13和14

14.模型解释(识别和量化因果效应)

可参考 Spark Pipelines: http://www.researchmethods.org/step-by-step1.pdf。

Apache Spark团队认识到了机器学习工作流的重要性,因此,他们开发了Spark pipeline来高效处理工作流问题。

Spark 机器学习代表一个可以作为pipeline的机器学习工作流,它由一系列以特定顺序运行的PipelineStages组成。

PipelineStages包括:Spark转换、Spark估计和Spark评估。

机器学习的工作流可以是非常复杂的,因此创建和调整它们非常耗时。研发Spark 机器学习Pipeline,使得机器学习工作流的构造和调整更为容易,尤其可以表示以下主要阶段:

1.数据加载

2.特征提取

3.模型估计

4.模型评价

5.模型解释

对于以上任务,可以使用Spark转换器进行特征提取。Spark估计器用来训练和估计模型,Spark评估器用来评价模型。

从技术上看,Spark中的pipeline作为一系列处理过程的有序组合,每个过程可以是转换,或者是估计,或者是评估。这些过程按照顺序执行,输入的数据集遵循各过程顺序进行修改。在转换过程中,调用transform() 方法进行数据集处理。在估计过程中,调用fit()方法生成一个转换器(转换器将成为pipeline Model或拟合pipeline的一部分),并且在数据集上调用转换器的transform()方法。

上面给出的技术说明都是针对线性pipeline模型。一旦数据流图形成有向无环图(Directed Acyclic Graph,DAG),Spark也可能生产非线性pipeline模型。

更多关于Spark pipeline的信息,请访问如下链接:http://spark.apache.org/docs/latest/ml-guide.html#pipeline。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
冬季训练营-从0到1玩转云服务器学习报告记录
从0到1玩转云服务器学习报告记录,搭建云上博客全过程
4 0
云起实验室第一期学习
云起实验室第一期学习-Tiger
11 0
python中对切片的理解
字符串还支持 切片。索引可以提取单个字符,切片 则提取子字符串: >>>
3 0
阿里云天池大赛赛题解析——机器学习篇-赛题一(7)
阿里云是国内知名的云计算、大数据、人工智能技术型公司,是阿里巴巴集团最重要的技术部门。阿里云天池是阿里云面向开发者和教育行业的资源输出部门,天池大赛是国内最大规模的人工智能算法赛事,致力于汇聚全球AI精英为企业解决真实问题。自2014年至今已举办数十次行业顶级算法赛事,全球参赛开发者超过30万人。然而对于更广大的普通开发者和大学生群体来说,高规格的算法大赛仍然具有很高的门槛。本书就是针对受众最广泛的新手人群而编写的,精选阿里巴巴最典型的人工智能算法应用案例,邀请天池大赛最顶级的获奖选手联合编撰,公开那些鲜为人知的技术秘籍,力图使每一个涉足数据智能算法技术的开发者从中获益......
5 0
冬季实战营第一期:从零到一上手玩转云服务器全流程
冬季实战营第一期:从零到一上手玩转云服务器
8 0
产业白热化竞争来临,看人工智能如何带动经济数智化发展
人工智能的发展主要围绕着语言、数学和逻辑推理能力的进步。未来,人工智能的将围绕提升预测准确性和情商能力而发展,为行业数智化转型带来层层浪潮。
6 0
10059
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载