Flink on Zeppelin (4) - 机器学习篇

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: Flink 在机器学习这个领域发力较晚,社区版没有一个完整的机器学习算法库可以用,Alink[1]是目前 Flink 生态圈相对比较完整的机器学习算法库,Alink 也在往 Flink 社区贡献的路上。今天我主要讲的就是如何在 Zeppelin 里使用 Alink。

今天我来讲下如何在 Zeppelin 里做机器学习。机器学习的重要性我就不多说了,我们直奔主题。

Flink 在机器学习这个领域发力较晚,社区版没有一个完整的机器学习算法库可以用,Alink[1]是目前 Flink 生态圈相对比较完整的机器学习算法库,Alink 也在往 Flink 社区贡献的路上。今天我主要讲的就是如何在 Zeppelin 里使用 Alink。

为什么在 Zeppelin 平台使用 Alink

Zeppelin 已经很好的集成了 Flink,在 Zeppelin 中使用 Alink 可以充分利用 Zeppelin 集成 Flink 所提供的特性,包括:

  • 支持丰富的执行模式:Local/Remote/Yarn
  • 支持对接 Hive
  • 支持 UDF (Scala,Python)
  • 支持 SQL (Batch SQL, Streaming SQL)
  • 支持可视化

有关 Flink on Zeppelin 的具体特性支持可以参考下面的文章和钉钉直播视频。

Flink on Zeppelin 文章系列:

  • Flink on Zeppelin(1)入门篇
  • Flink on Zeppelin(2)Batch 篇
  • Flink on Zeppelin(3)Streaming 篇

Flink on Zeppelin 直播系列:

准备工作

首先你需要安装 Zeppelin + Flink + Alink:

  • 安装 Zeppelin 和 Flink,请参考 Flink on Zeppelin 入门篇
  • 运行下面的命令安装 pyalink
pip install pyalink
  • 安装 Alink jar 包

    • 安装完 pyalink 之后,你可以在 python 目录里找到 Alink 的 jar 包,然后把这些 jar 包 copy 到 Flink 的 lib 目录下,这是我的机器上的 jar 包位置:

1 640.png

验证 Alink

现在你可以就可以在 Zeppelin 里运行 Alink 了,有关 Alink 的具体用法我就不再详述,大家可以参考1。首先我们来运行下面的代码来验证下前面的准备工作是否正确完成,是否能在 Zeppelin 里运行 Alink。

2 640.jpg

如果你看到了下面的输出,那么说明 Alink 已经正确安装。

Warning: useCustomEnv will do nothing, since useCustomEnv is used to initialize MLEnv.
   a  b
0  1  2
1  2  5
2  3  1

上面最重要的一行代码是这行:

mlenv = useCustomEnv(gateway,
                     b_env,bt_env_2, s_env, st_env_2)

mlenv 是 Alink 的入口,b_env, bt_env_2, s_env, st_env_2 是 Zeppelin 为 Flink 创建的变量(代表 ExecutionEnvironment,BatchTableEnvironment, StreamExecutionEnvironment, StreamTableExecutionEnvironment)。这里的 bt_env_2 和 st_env_2 代表支持 Flink Planner 的 TableEnvironment,因为 Alink 目前是基于 DataSet 的,只支持 Flink Planner,所以这里需要用 bt_env_2, st_env_2。(具体可参考Batch篇)

Logsitic Regression

接下来我会以 Alink 的 Logstic Regression 算法来演示如何在 Zeppelin 中使用 Alink。在这个 demo 中,我会选用 bank 数据,这也是我在 Batch 篇中使用的数据。机器学习的模型训练往往只是整个机器学习任务的一小步,在做机器学习之前往往需要清理数据,数据分析等等。这里的 Bank 数据就是我的 Batch 篇中用 Flink 引擎清理过的数据。

bank 数据:
https://archive.ics.uci.edu/ml/datasets/bank+marketing

Step 1. 定义训练数据+测试数据

补 640.jpg

Step 2. 定义训练特征和目标

3 640.jpg

Step 3. 构建 Pipeline

4 640.jpg

运行 Step 1 和 Step 2 都会非常快,因为没有触发 Flink Job,Step 3 会触发 Flink Job,开始真正的机器学习训练,右上角你会看到 Flink 的 Job Link。

Step 4. 查看 Model Metrics

5 640.jpeg

训练模型结束之后只是整个机器学习任务的一小步,之后你往往需要反复修改代码来改进模型,查看模型的 Metrics 就是其中很重要的一步,从模型的 Metrics 之中你往往可以看出一些端倪,给改进模型寻找方向。

■ Step 5. 错误数据诊断

6 640.jpg

除了查看 Model Metrics,你还可以看看那些没有被正确分类的数据,从这些数据中寻找线索。

这个就是如何在 Zeppelin 中使用 Alink 来做机器学习,正如之前所述,模型训练只是机器学习的一小步,机器学习之前你往往需要做数据清理,数据探索等等,这时候你就可以利用 Zeppelin 中集成的 Flink 能力来做这些事情,总之你可以在 Zeppelin 这个平台完成整个端到端的数据处理,数据分析,机器学习整条链路。

如果有碰到任何问题,请加入下面这个钉钉群讨论。

640.jpeg

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
机器学习/深度学习 存储 人工智能
Flink on Zeppelin 流计算处理最佳实践
欢迎钉钉扫描文章底部二维码进入 EMR Studio 用户交流群 直接和讲师交流讨论~ 点击以下链接直接观看直播回放:https://developer.aliyun.com/live/247106
Flink on Zeppelin 流计算处理最佳实践
|
2月前
|
存储 监控 大数据
阿里云实时计算Flink在多行业的应用和实践
本文整理自 Flink Forward Asia 2023 中闭门会的分享。主要分享实时计算在各行业的应用实践,对回归实时计算的重点场景进行介绍以及企业如何使用实时计算技术,并且提供一些在技术架构上的参考建议。
664 7
阿里云实时计算Flink在多行业的应用和实践
|
19天前
|
SQL 消息中间件 Kafka
实时计算 Flink版产品使用问题之如何在EMR-Flink的Flink SOL中针对source表单独设置并行度
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
12天前
|
消息中间件 监控 Kafka
联通实时计算平台问题之Flink状态后端数据量较大时,问题排查要如何进行
联通实时计算平台问题之Flink状态后端数据量较大时,问题排查要如何进行
|
19天前
|
消息中间件 监控 Kafka
实时计算 Flink版产品使用问题之怎么调整Flink Web U显示的日志行数
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2月前
|
SQL 关系型数据库 MySQL
实时计算 Flink版操作报错合集之从mysql读数据写到hive报错,是什么原因
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
2月前
|
存储 JSON Kubernetes
实时计算 Flink版操作报错合集之 写入hudi时报错,该如何排查
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
2月前
|
SQL 流计算
实时计算 Flink版操作报错合集之怎么向一个未定义列的表中写入数据
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
2月前
|
资源调度 分布式计算 Hadoop
实时计算 Flink版操作报错合集之perjob提交给yarn,报错显示无法连接yarn- Connecting to ResourceManager,是什么导致的
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
2月前
|
消息中间件 关系型数据库 MySQL
实时计算 Flink版操作报错合集之运行mysql to doris pipeline时报错,该如何排查
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

热门文章

最新文章

相关产品

  • 实时计算 Flink版
  • 下一篇
    DDNS