文档备案控制台

开发者社区华章出版社文章正文

Apache Spark机器学习.1.6　机器学习工作流和Spark pipeline

2017-05-02 1586

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1.6　机器学习工作流和Spark pipeline

在本节中，我们介绍机器学习工作流和Spark pipeline，然后讨论Spark pipeline作为机器学习计算工作流的优秀工具是如何发挥作用的。

学习完本节，读者将掌握这两个重要概念，并且为编程和实现机器学习工作流的Spark pipeline做好准备。

机器学习的工作流步骤

几乎所有的机器学习项目均涉及数据清洗、特征挖掘、模型估计、模型评估，然后是结果解释，这些都可以组织为循序渐进的工作流。这些工作流有时称为分析过程。

有些人甚至定义机器学习是将数据转化为可执行的洞察结果的工作流，有些人会在工作流中增加对业务的理解或问题的定义，以作为他们工作的出发点。

在数据挖掘领域，跨行业数据挖掘标准过程（CRISP-DM）是一个被广泛接受和采用的标准流程。许多标准机器学习的工作流都只是CRISP-DM工作流某种形式上的变型。

正如上图所示，任何标准CRISP-DM的工作流都需要以下所有的6个步骤：

1.业务理解

2.数据理解

3.数据准备

4.建模

5.评估

6.部署

一些人可能会在其中补充分析方法选择和结果解释，以使其更加完整。对于复杂的机器学习项目，会有一些分支和反馈回路，使工作流程变得非常复杂。

换句话说，有一些机器学习的项目，在我们完成模型评估之后，可能会回到建模甚至是数据准备的步骤。在数据准备步骤之后，我们可以将其分为两种以上的建模类型分支。

文章标签：

机器学习/深度学习

Apache

分布式计算

Spark

关键词：

人工智能平台 PAI工作流

apache spark机器学习

spark人工智能平台 PAI

Apache工作流

apache apache spark

华章计算机

目录

相关文章

全干程序员demo

|

消息中间件监控数据可视化

Apache Airflow 开源最顶级的分布式工作流平台

Apache Airflow 是一个用于创作、调度和监控工作流的平台，通过将工作流定义为代码，实现更好的可维护性和协作性。Airflow 使用有向无环图（DAG）定义任务，支持动态生成、扩展和优雅的管道设计。其丰富的命令行工具和用户界面使得任务管理和监控更加便捷。适用于静态和缓慢变化的工作流，常用于数据处理。

全干程序员demo

1298 3 4

Apache Airflow 开源最顶级的分布式工作流平台

龙大吉

|

分布式计算大数据 Apache

利用.NET进行大数据处理：Apache Spark与.NET for Apache Spark

【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力，Apache Spark作为高效的大数据处理引擎，广受青睐。然而，.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark，展示如何通过C#和F#等.NET语言，结合Spark的强大功能进行大数据处理，简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作，突显了.NET for Apache Spark的易用性和强大功能。

龙大吉

449 1 1

张飞的猪

|

分布式计算大数据 Spark

Spark大数据处理：技术、应用与性能优化(全)PDF书籍推荐分享

《Spark大数据处理：技术、应用与性能优化》深入浅出介绍Spark核心，涵盖部署、实战与性能调优，适合初学者。作者基于微软和IBM经验，解析Spark工作机制，探讨BDAS生态，提供实践案例，助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)

张飞的猪

507 1 1

Spark大数据处理：技术、应用与性能优化(全)PDF书籍推荐分享

郑小健

|

分布式计算大数据数据处理

Apache Spark在大数据处理中的应用

Apache Spark是大数据处理的热门工具，由AMPLab开发并捐赠给Apache软件基金会。它以内存计算和优化的执行引擎著称，提供比Hadoop更快的处理速度，支持批处理、交互式查询、流处理和机器学习。Spark架构包括Driver、Master、Worker Node和Executor，核心组件有RDD、DataFrame、Dataset、Spark SQL、Spark Streaming、MLlib和GraphX。文章通过代码示例展示了Spark在批处理、交互式查询和实时数据处理中的应用，并讨论了其优势（高性能、易用性、通用性和集成性）和挑战。【6月更文挑战第11天】

郑小健

575 6 6

jianz123

|

分布式计算 Hadoop 大数据

大数据处理框架在零售业的应用：Apache Hadoop与Apache Spark

【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持

jianz123

387 0 0

扬流

|

分布式计算 Serverless 数据处理

EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务

Apache Airflow 是一个强大的工作流程自动化和调度工具，它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务，以实现任务调度和执行的自动化，帮助您更有效地管理数据处理任务。

扬流

640 0 0

叫做饺子

|

分布式计算 Apache Spark

Python与Apache Spark：实时AI的大数据引擎——Spark Streaming实战

7月更文挑战第9天

叫做饺子

583 0 0

游客rj7kdyude6p6g

|

5月前

|

机器学习/深度学习数据采集人工智能

【机器学习算法篇】K-近邻算法

K近邻（KNN）是一种基于“物以类聚”思想的监督学习算法，通过计算样本间距离，选取最近K个邻居投票决定类别。支持多种距离度量，如欧式、曼哈顿、余弦相似度等，适用于分类与回归任务。结合Scikit-learn可高效实现，需合理选择K值并进行数据预处理，常用于鸢尾花分类等经典案例。（238字）

游客rj7kdyude6p6g

1694 7 7

龙大吉

|

机器学习/深度学习算法数据挖掘

K-means聚类算法是机器学习中常用的一种聚类方法，通过将数据集划分为K个簇来简化数据结构

K-means聚类算法是机器学习中常用的一种聚类方法，通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理，包括初始化、数据点分配与簇中心更新等步骤，以及如何在Python中实现该算法，最后讨论了其优缺点及应用场景。

龙大吉

1512 6 6

martinzh717

|

10月前

|

机器学习/深度学习数据采集人工智能

20分钟掌握机器学习算法指南

在短短20分钟内，从零开始理解主流机器学习算法的工作原理，掌握算法选择策略，并建立对神经网络的直观认识。本文用通俗易懂的语言和生动的比喻，帮助你告别算法选择的困惑，轻松踏入AI的大门。

martinzh717

699 8 10

华章出版社

热门文章

最新文章

百信银行基于 Apache Hudi 实时数据湖演进方案

Apache Flink 漫谈系列(08) - SQL概览

虚拟主机用户ftp和apache用户文件互操作权限解决方法

网易游戏 x Apache Doris：湖仓一体架构演进之路

Cent OS上配置Apache2 + SVN

使用Apache的Proxy模块实现对被代理网站的访问

win7安装apache+php

基于Apache doris怎么构建数据中台(三)-数据资产管理

Apache Flink 流批融合技术介绍

CDP中配置Apache Hadoop Yarn的安全性

Linux环境下 java程序提交spark任务到Yarn报错

Kubeflow-Spark-Operator-架构学习指南

阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品

springboot项目集成dolphinscheduler调度器可拖拽spark任务管理

Spark SQL架构及高级用法

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

3 秒音频也能克隆？拆解 Spark-TTS 架构的极致小样本学习

从InfluxDB到StarRocks：Grab实现Spark监控平台10倍性能提升

相关课程

更多

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

Apache Flink 入门

相关电子书

更多

微博机器学习平台架构和实践

机器学习及人机交互实战

大数据与机器学习支撑的个性化大屏

推荐镜像

更多

apache

下一篇

5月安全新品播课（1）|混合云下割裂的Web安全管理挑战如何破？