TensorFlow 与 ApacheFlink 的结合(一)| 学习笔记

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
简介: 快速学习 TensorFlow 与 ApacheFlink 的结合。

开发者学堂课程【Apache Flink 入门到实战 - Flink 开源社区出品 TensorFlow 与 ApacheFlink 的结合(一)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/632/detail/10040


TensorFlow 与 ApacheFlink 的结合(一)

 

内容介绍:

一、Background(背景)

二、Machine Leaming On Flink(机器学习如何在 Flink 集群上运行)

三、TensorFlow On Flink(TensorFlow 如何在 Flink 集群上运行)

 

一、Background(背景)

TensorFlow 是一个开源的机器学习的 framework,在深度学习特别流行。

Flink 是一个分布式的数据处理引擎,被广泛应用在数据处理和特征工程领域。

先介绍一下典型的机器学习工作流程。如图所示,整个流程包含特征工程、模型训练、离线或者是在线预测等环节

image.png

在此过程中,无论是特征工程、模型训练还是模型预测,中间都会产生日志。需要先用数据处理引擎比如 Flink 对这些日志进行分析,然后进入特征工程。

再使用深度学习的计算引擎 TensorFlow 进行模型训练和模型预测。当模型训练好了以后再用 TensorFlow serving 做在线的打分。上述流程虽然可以跑通,但也存在一定的问题,

比如:

1. 同一个机器学习项目在做特征工程、模型训练、模型预测时需要用到 Flink 和 TensorFlow 两个计算引擎,部署相对而言更复杂。

2. TensorFlow 在分布式的支持上还不够友好,运行过程中需要指定机器的 IP 地址和端口号;而实际生产过程经常是运行在一个调度系统上比如 Yarn,需要动态分配 IP 地址和端口号。

3. TensorFlow 的分布式运行缺乏自动的 failover 机制。

针对以上问题,我们通过结合 Flink 和 TensorFlow,将 TensorFlow 的程序跑在 Flink 集群上的这种方式来解决,

 image.png

整体流程如下:

特征工程用 Flink 去执行,模型训练和模型的准实时预测目标使 TensorFlow 计算引擎可以跑在 Flink 集群上。这样就可以用 Flink 一套计算引擎去支持模型训练和模型的预测,部署上更简单的同时也节约了资源。基于以上目标我们建立的一个项目flink-ai-extended

Github: https://github.com/alibaba/flink-ai-extended

 

二、Machine Leaming On Flink(机器学习如何在 Flink 集群上运行)

1.Flink 计算简介image.png

Flink 是一款开源大数据分布式计算引擎,在 Flink 里所有的计算都抽象成 operator,如上图所示,数据读取的节点叫 source operator,输出数据的节点叫 sink operator。source 和 sink 中间有多种多样的 Flink operator 去处理,上图的计算拓扑包含了三个 source 和两个 sink。

2.机器学习分布式拓扑

机器学习分布式运行拓扑如下图所示:

image.png 

在一个机器学习的集群当中,经常会对一组节点(node)进行分组,如上图所示,一组节点可以是 worker(运行算法),也可以是 ps(更新参数)。如何将 Flink 的 operator 结构与 Machine Learning 的 node、Application Manager 角色结合起来?下面将详细讲解 flink-ai-extended 的抽象。

3.Flink-ai-extended 抽象

首先,对机器学习的 cluster 进行一层抽象,命名为 ML framework,同时机器学习也包含了 ML operator。通过这两个模块,可以把 Flink 和 Machine Learning Cluster 结合起来,并且可以支持不同的计算引擎,包括 TensorFlow。

如下图所示:

image.png 

在 Flink 运行环境上,抽象了 ML Framework 和 ML Operator 模块,负责连接 Flink 和其他计算引擎。

4.ML Framework

image.png

ML Framework 分为 2 个角色。

(1)Application Manager(以下简称 am) 角色,负责管理所有 node 的节点的生命周期。

(2)node 角色,负责执行机器学习的算法程序。

在上述过程中,还可以对 Application Manager 和 node 进行进一步的抽象,Application Manager 里面我们单独把 state machine 的状态机做成可扩展的,这样就可以支持不同类型的作业。深度学习引擎,可以自己定义其状态机。

从 node 的节点抽象 runner 接口,这样用户就可以根据不同的深度学习引擎去自定义运行算法程序。

image.png

5.ML Operator

ML Operator 模块提供了两个接口:

(1) addAMRole,这个接口的作用是在 Flink 的作业里添加一个 Application Manager 的角色。Application Manager 角色如上图所示就是机器学习集群的管理节点。

(2) addRole,增加的是机器学习的一组节点。

利用 ML Operator 提供的接口,可以实现 Flink Operator 中包含一个Application Manager 及 3 组 node 的角色,这三组 node 分别叫 role a、 role b,、role c,三个不同角色组成机器学习的一个 cluster。如上图代码所示。

Flink 的 operator 与机器学习作业的 node 一一对应。机器学习的 node 节点运行在 Flink 的 operator 里,需要进行二手手机号买卖数据交换,

原理如下图所示:

image.png

Flink operator 是 java 进程,机器学习的 node 节点一般是 python 进程,java 和 python 进程通过共享内存交换数据。

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
存储 消息中间件 SQL
Flink 必知必会经典课程8:Flink Connector 详解
关于Flink Connector的详解,本文将通过四部分展开介绍:1. 连接器;2. Source API;3. Sink API;4. Collector的未来发展。
Flink 必知必会经典课程8:Flink Connector 详解
|
弹性计算 资源调度 Kubernetes
Flink三种集群模式,Standalone模式,Flink On YARN,Flink On K8S,这三种模式有啥优缺点,生产环境如何选择呢?
Flink三种集群模式,Standalone模式,Flink On YARN,Flink On K8S,这三种模式有啥优缺点,生产环境如何选择呢?
1750 3
|
机器学习/深度学习 数据采集 消息中间件
|
机器学习/深度学习 算法 API
Flink ML
Flink ML 是 Apache Flink 的一个子项目,旨在提供实时机器学习的能力。它遵循 Apache 社区规范,旨在成为实时传统机器学习的事实标准。Flink ML 提供了分布式机器学习算法,支持在线学习和离线学习,以及各种模型评估和调整方法。
432 2
|
数据处理 Apache 流计算
实时计算引擎 Flink:从入门到深入理解
本篇详细介绍了Apache Flink实时计算引擎的基本概念和核心功能。从入门到深入,逐步介绍了Flink的数据源与接收、数据转换与计算、窗口操作以及状态管理等方面的内容,并附带代码示例进行实际操作演示。通过阅读本文,读者可以建立起对Flink实时计算引擎的全面理解,为实际项目中的实时数据处理提供了有力的指导和实践基础。
4879 2
|
开发者 C# 自然语言处理
WPF开发者必读:掌握多语言应用程序开发秘籍,带你玩转WPF国际化支持!
【8月更文挑战第31天】随着全球化的加速,开发多语言应用程序成为趋势。WPF作为一种强大的图形界面技术,提供了优秀的国际化支持,包括资源文件存储、本地化处理及用户界面元素本地化。本文将介绍WPF国际化的实现方法,通过示例代码展示如何创建和绑定资源文件,并设置应用程序语言环境,帮助开发者轻松实现多语言应用开发,满足不同地区用户的需求。
305 0
|
机器学习/深度学习 人工智能 分布式计算
阿里云机器学习PAI介绍
阿里云机器学习PAI介绍
248 1
|
Kubernetes Cloud Native Apache
FFA 2023 专场解读:流批一体&平台建设&云原生
完整议程已公开,期待 12 月 8-9 日与你 Flink Forward Asia 2023 相会!
816 3
FFA 2023 专场解读:流批一体&平台建设&云原生
|
机器学习/深度学习 人工智能 搜索推荐
TensorFlow 与 ApacheFlink 的结合(二)| 学习笔记
快速学习 TensorFlow 与 ApacheFlink 的结合。
TensorFlow 与 ApacheFlink 的结合(二)| 学习笔记
|
资源调度 运维 Kubernetes
阿里巴巴云原生混部系统 Koordinator 正式开源
脱胎于阿里巴巴内部,经过多年双 11 打磨,每年为公司节省数十亿的混部系统 Koordinator 今天宣布正式开源。通过开源,我们希望将更好的混部能力、调度能力开放到整个行业,帮助企业客户改进云原生工作负载运行的效率、稳定性和计算成本。
阿里巴巴云原生混部系统 Koordinator 正式开源