如何迁移 Flink 任务到实时计算 Flink 版|学习笔记

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 快速学习 如何迁移 Flink 任务到实时计算 Flink 版

开发者学堂课程【《实时计算 Flink 版产品入门与实操》:如何迁移 Flink 任务到实时计算 Flink  版】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/334/detail/3742


如何迁移 Flink 任务到实时计算 Flink 版


内容简介:

1.如何迁移,从 flink run 到流计算平台。

2.多 jar,用户运行需要其他依赖的 jar。

3.main 有配置文件,用户通过配置文件定义作业。

4.state 复用,如何复用原来的 state,加速作业的恢复时间。

 

1.如何迁移

(1)线下的 flink run

/flink/bin/flink run -m yarn-cluster -d -yqu default

-ynm 'test' -s hdfs : /user/flink/ checkpoints/test

-yjm 1000m -ytm 2000m -yD yarn.appmaster.vcores=1

-yD yarn.containers.vcores=1 /worker_dir/lib/usercode. jar

问题点

·不同版本配置不同

·如何快速切换不同版本

·无法从之前的作业恢复

主要参数

·队列 default

·名字 test

·cp 地址: hdfs://user/flink/checkpoints/test-

·resource:内存和 cpu

·运行: mainJar mainArgs

代码:

/flink/bin/flink run -m yarn-cluster -d -yqu default

-ynm 'test' -s hdfs : / user /flink/ checkpoints/test

-yjm 1000m -ytm 2000m -yD yarn.appmaster.vcores=1

-yD yarn.containers.vcores=1 /worker_dir/lib/usercode.jar

Flink命令可以指定队列、名字、切换 cp 地址、资源设置。

(2)vvp ui  基础

主要参数

·通过 namespace 做到多用户的隔离

·作业名字

·Jar URI 设置作业的 mainJar

·main args 设置作业参数

·并行度

首先打开 flink ui 是一个基础设置,需要填作业名字、jar 地址、Entrypoint class、主要参数和并行度。除此之外用户还有一些高级参数。

①行为配置

行为配置有升级策略、初始状态、恢复策略。

升级策略指在作业修改配置且重启时 APPlicationManager 的行为:Stateless 是将停止当前作业,并使用最新配置启动一个新的作业,Stateful 是带状态升级,将对该作业做一个 Savepoint,并从该Savepoint用最新配置启动一个新的作业,None是配置变更文件时,不会对正在运行的 Flinnk Job 执行自动重启。

初始状态指作业的初始状态:

Cancelled 是将创建作业,但不会启动 FlinkJob,Running 是将在创建作业后立即启动 FlinkJOb。

恢复策略指当作业状态变为运行时,State 的恢复策略:

Latest Savepoint 是将从最新 Savepoint 文件恢复,Latest State 是将从最新的Savepoint 或 Checckpoint 中恢复,None 是不带 State 恢复作业。

②配置

可以加一些标签,这些标签你可以在类似的页面设置你的作业通过,标签设置可以标述这个作业属于哪个用户。

③Flink 配置

Flink 配置可以设置 Checkpoint 的执行时间间隔,两次 Checkpoint 之间的最短时间间隔和定义当作业无法再重启或暂停时 Checkpoint 是否保留和一些 Flink 重启策略配置。

也可以设置重启策略,尝试重启次数是 Flink 在宣告作业失败之前,如果通过检查点激活,则使用 Integer.MAX_VALUE,每次重启时间间隔是延迟重试意味着在执行失败后,重新执行不会立即开始,而只会在一定的延迟之后开始。

④其他配置

其他配置可以配置一些其他的配置。

⑤资源配置

资源配置可以设置 Task Managers 的数量、job 的 cpu 和内存和 Task Managers 的cpu 和内存。

⑥日志配置

如果想查看任意一个类的信息可以直接在日志配置中配置。


2.多 jar

①上传 jar

首先需要在资源管理界面上传所依赖的文件,上传这个包之后你的包就已经在管理下面。

②配置

需要点高级配置,在附加依赖上点击下拉框选择你需要的jar包并保存,此时你的包就已经加载进来了。

交完作业后出现问题,怎么查找问:

有两种方式,一种是通过 Flink UI,但由于作业没有运行起来是打不开 FlinkUI 的;第二种就是在运行事件中找到该作业,点击加号,查看运行出来的脚本,下拉寻找有红色标注的提示字段,可以知道运行不起来的原因。


3. 配置文件

不同用户通过配置文件的方式来来定义它的job和启动。

①上传文件

在资源管理中上传你的文件,接着在高级配置中选择你的依赖文件。

②代码中读取

在你的启动函数里面如果需要文件的话,你可以使用 yam 和 ask/asl 方式。


4.state 复用

如果发现作业有问题,肯定需要停下正在跑的文件,改完问题作业后需要重启,Flink 是有状态的,你可以对作业无缝恢复不需要其他操作。

①配置

首先你需要在行为配置下的恢复策略下选择 Latest Savepoint 或者 latest State,这时当你暂停作业再次点击启动就可以直接恢复,但注意不能停止作业。

②暂停作业

发现作业处于不正常的状态就可以点击暂停,修改成功之后可以直接点击启动,会自动恢复。

在作业快照下,点击 Flink Checkpoint 可以查看恢复信息

可以在 Lateost Restore 中找到地址,复制地址后直接使用。

③主动触发

还有一种情况,当前有作业在运行,想基于这个作业再运行一个作业。可以在作业快照-历史快照找到需要的作业进行复制,复制的作业包含了作业的所有设置信息可以直接启动。

在页面中你也可以一目了然你的作业信息。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
2月前
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
1564 73
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
|
6天前
|
消息中间件 关系型数据库 MySQL
Flink CDC 在阿里云实时计算Flink版的云上实践
本文整理自阿里云高级开发工程师阮航在Flink Forward Asia 2024的分享,重点介绍了Flink CDC与实时计算Flink的集成、CDC YAML的核心功能及应用场景。主要内容包括:Flink CDC的发展及其在流批数据处理中的作用;CDC YAML支持的同步链路、Transform和Route功能、丰富的监控指标;典型应用场景如整库同步、Binlog原始数据同步、分库分表同步等;并通过两个Demo展示了MySQL整库同步到Paimon和Binlog同步到Kafka的过程。最后,介绍了未来规划,如脏数据处理、数据限流及扩展数据源支持。
122 0
Flink CDC 在阿里云实时计算Flink版的云上实践
zdl
|
2月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
189 56
|
20天前
|
存储 关系型数据库 BI
实时计算UniFlow:Flink+Paimon构建流批一体实时湖仓
实时计算架构中,传统湖仓架构在数据流量管控和应用场景支持上表现良好,但在实际运营中常忽略细节,导致新问题。为解决这些问题,提出了流批一体的实时计算湖仓架构——UniFlow。该架构通过统一的流批计算引擎、存储格式(如Paimon)和Flink CDC工具,简化开发流程,降低成本,并确保数据一致性和实时性。UniFlow还引入了Flink Materialized Table,实现了声明式ETL,优化了调度和执行模式,使用户能灵活调整新鲜度与成本。最终,UniFlow不仅提高了开发和运维效率,还提供了更实时的数据支持,满足业务决策需求。
|
2月前
|
SQL 运维 数据可视化
阿里云实时计算Flink版产品体验测评
阿里云实时计算Flink基于Apache Flink构建,提供一站式实时大数据分析平台,支持端到端亚秒级实时数据分析,适用于实时大屏、实时报表、实时ETL和风控监测等场景,具备高性价比、开发效率、运维管理和企业安全等优势。
|
3月前
|
运维 搜索推荐 数据安全/隐私保护
阿里云实时计算Flink版测评报告
阿里云实时计算Flink版在用户行为分析与标签画像场景中表现出色,通过实时处理电商平台用户行为数据,生成用户兴趣偏好和标签,提升推荐系统效率。该服务具备高稳定性、低延迟、高吞吐量,支持按需计费,显著降低运维成本,提高开发效率。
100 1
|
3月前
|
运维 监控 Serverless
阿里云实时计算Flink版评测报告
阿里云实时计算Flink版是一款全托管的Serverless实时流处理服务,基于Apache Flink构建,提供企业级增值功能。本文从稳定性、性能、开发运维、安全性和成本效益等方面全面评测该产品,展示其在实时数据处理中的卓越表现和高投资回报率。
|
3月前
|
存储 运维 监控
实时计算Flink版在稳定性、性能、开发运维、安全能力等等跟其他引擎及自建Flink集群比较。
实时计算Flink版在稳定性、性能、开发运维和安全能力等方面表现出色。其自研的高性能状态存储引擎GeminiStateBackend显著提升了作业稳定性,状态管理优化使性能提升40%以上。核心性能较开源Flink提升2-3倍,资源利用率提高100%。提供一站式开发管理、自动化运维和丰富的监控告警功能,支持多语言开发和智能调优。安全方面,具备访问控制、高可用保障和全链路容错能力,确保企业级应用的安全与稳定。
62 0
|
4月前
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。
|
6月前
|
存储 监控 大数据
阿里云实时计算Flink在多行业的应用和实践
本文整理自 Flink Forward Asia 2023 中闭门会的分享。主要分享实时计算在各行业的应用实践,对回归实时计算的重点场景进行介绍以及企业如何使用实时计算技术,并且提供一些在技术架构上的参考建议。
903 7
阿里云实时计算Flink在多行业的应用和实践