如何在 Flink 集群部署 Alink?

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
简介: 在 Flink 集群部署 Alink,需要部署三个 Jar 包(本文会有一个部分专门讲述如何获取),对于不同 Flink 集群环境,方式有些区别,本文主要讨论 Standalone 集群和 Kubernetes 集群。

作者:杨旭(品数),阿里巴巴资深技术专家

在 Flink 集群部署 Alink,需要部署三个 Jar 包(本文会有一个部分专门讲述如何获取),对于不同 Flink 集群环境,方式有些区别,本文主要讨论 Standalone 集群和 Kubernetes 集群。

获取集群部署所需 Jar 包

由于 Alink 可以通过 Java 和 Python 两种方式提交,建议在集群部署的时候将相关 Jar 包一起部署上去。Alink 虽然没有单独提供集群部署 Jar 包的下载,但是所需 Jar 包与 PyAlink 所用的相同。所以可以从 PyAlink 的安装 whl 包中获取。具体方式如下:

1.下载 PyAlink 1.10 的 whl 包,相关链接:

https://github.com/alibaba/Alink/releases/tag/v1.1.0

2.解压 PyAlink 1.10 的 whl 包

解压后的文件结构如下图所示,在 pyalink/lib 下为集群部署所需的三个 jar 包。

1.jpg

在 Standalone 集群上部署

将前面获取的三个 Jar 包拷贝到 Flink 目录下,再启动 Flink 集群即可。

  • 在 Flink 配置中增加:classloader.resolve-order: parent-first
  • 在 flink-[版本号]目录下,运行 bin/start-cluster.sh 启动集群
  • bin/taskmanager.sh start 可以增加 TM

更多内容可以参考:

https://ci.apache.org/projects/flink/flink-docs-stable/ops/deployment/cluster_setup.html

在 Kubernetes 集群上部署

将前面获取的三个 Jar 包放置进 Docker 镜像中,并将以下三个命令添加进 DockerFile,打包镜像即可。

ADD alink_connector_all-1.1-SNAPSHOT.jar $FLINK_LIB_DIR/alink_connector_all-1.1-SNAPSHOT.jar
ADD alink_core_flink-1.10_2.11-1.1-SNAPSHOT.jar $FLINK_LIB_DIR/alink_core_flink-1.10_2.11-1.1-SNAPSHOT.jar
ADD alink_python-1.1-SNAPSHOT-shaded.jar $FLINK_LIB_DIR/ alink_python-1.1-SNAPSHOT-shaded.jar

使用 Flink 官方提供的部署方式,其中增加 classloader.resolve-order: parent-first 配置项。参考:

https://ci.apache.org/projects/flink/flink-docs-stable/ops/deployment/kubernetes.html

以上分享希望对你有所帮助,了解更多 Alink 上手实践文章,更多Alink技术交流可钉钉扫描下方二维码加入交流群:

Alink 开源用户群.jpg

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
目录
相关文章
|
分布式计算 资源调度 Hadoop
Flink安装部署{单机模式、会话模式(集群部署)、yarn模式(包含hadoop3.1.3部署)}
Flink安装部署{单机模式、会话模式(集群部署)、yarn模式(包含hadoop3.1.3部署)}
822 0
|
SQL Oracle 关系型数据库
实时计算 Flink版产品使用问题之Oracle数据库是集群部署的,怎么进行数据同步
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
机器学习/深度学习 人工智能 Apache
人工智能平台PAI操作报错合集之alink任务可以在本地运行,上传到flink web运行就报错,如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
机器学习/深度学习 人工智能 流计算
人工智能平台PAI 操作报错合集之在集群上提交了包含alink相关功能的flink任务,但是却报错如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
资源调度 分布式计算 Kubernetes
Flink最全的集群部署攻略(推荐yarn实现企业级部署)
🍅程序员小王的博客:程序员小王的博客 🍅 欢迎点赞 👍 收藏 ⭐留言 📝 🍅 如有编辑错误联系作者,如果有比较好的文章欢迎分享给我,我会取其精华去其糟粕
11755 3
Flink最全的集群部署攻略(推荐yarn实现企业级部署)
|
分布式计算 Java 网络安全
Flink独立集群部署和HA部署
场景描述 172.19.9.202 主节点 JobManager 主/从 172.19.9.201 从节点 TaskManager 主/从 172.19.9.203 从节点 TaskManager 主/从
500 0
|
资源调度 分布式计算 Kubernetes
Flink最全的集群部署攻略(推荐yarn实现企业级部署)
flink单机部署模式,不管是学习还是开发尽量不使用,flink自带集群部署,资源管理由flink集群管理,使用zookeeper监听事件,实现独立高可用集群,防止集群的单点故障,推荐开发环境测试使用,flink on yarn: 把资源管理交给yarn实现,计算机资源统一由Haoop YARN管理,推荐生产环境使用。
Flink最全的集群部署攻略(推荐yarn实现企业级部署)
|
算法 Apache 流计算
《Alink:基于Apache Flink的算法平台》电子版地址
Alink:基于Apache Flink的算法平台
201 0
《Alink:基于Apache Flink的算法平台》电子版地址
|
算法 Apache 流计算
《Alink:基于Apache Flink的算法平台》电子版地址
Alink:基于Apache Flink的算法平台
199 0
《Alink:基于Apache Flink的算法平台》电子版地址
|
机器学习/深度学习 流计算