文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink中我的State 数据过期时间设置24h，但ck列表里只显示最近30分钟的检查点。正常吗？

Flink中我的State 数据过期时间设置24h，但是ck列表里只显示最近30分钟的检查点。正常吗？

展开

收起

三分钟热度的鱼 2023-08-08 12:10:59 219 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

是的，Flink作业中状态的大小会影响作业的重启时间。当作业重新启动时，Flink需要将之前的状态数据加载回内存中，以便继续处理。如果状态数据很大，加载和恢复状态所需的时间将会更长。

具体而言，状态的大小对重启时间的影响有以下几个方面：

磁盘IO：如果状态数据无法完全放入内存中，Flink可能需要将一部分状态数据存储在磁盘上。在重启时，需要从磁盘读取这些状态数据，这会涉及到磁盘IO操作，而磁盘IO的速度通常较慢，可能导致重启时间延长。

网络传输：如果使用分布式部署的Flink作业，状态数据可能需要在不同的任务管理器之间进行传输。在重启时，需要将状态数据从存储位置传输到相应的任务管理器，这涉及到网络通信。如果状态数据很大，网络传输的时间会增加，从而延长重启时间。

初始化和恢复：重启作业时，Flink需要重新初始化状态并将之前的状态数据恢复到各个算子中。如果状态数据很大，初始化和恢复的过程会更加耗时。

因此，为了减少作业的重启时间，需要注意控制状态的大小。可以考虑以下优化措施：

使用状态后端：选择合适的状态后端，如RocksDB状态后端，可以将部分状态数据持久化到磁盘，避免全部存储在内存中，从而减少内存压力和重启时间。
分区和分片：对状态进行分区和分片，将大状态拆分为多个小状态，可以减小单个状态的大小，提高重启效率。
状态清理：定期清理过期或不再需要的状态数据，避免状态数据过大导致不必要的负担和重启延迟。

2023-08-08 18:25:22

赞同展开评论
圆不溜秋的小猫猫

前端展示有限的，checkpoint 是增量的，展示太多用处也没有很大。此回答整理自钉群“实时计算Flink产品交流群”

2023-08-08 12:27:43

赞同展开评论

问答分类：

流计算实时计算 Flink版云数据库 ClickHouse

问答标签：

实时计算 Flink版数据实时计算 Flink版检查云数据库 ClickHouse数据数据云数据库 ClickHouse 实时计算 Flink版State

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

Flink手动取消的job，记录会保存多久就查不到检查点信息了？

202

0

0

flink cdc 3.0支持手动savepoint，然后从停止job，然后从检查点启动job吗

291

0

0

Flink默认先全量再增量同步，全量时会对checkpoint上锁，导致请求检查点时失败，任务重启

525

1

0

mysql->flink-cdc->clickhouse数据传输不识别delete操作

522

1

0

flink下的非对称检查点

199

1

0

Flink一个作业同步多张表到kafka 深度检查直接报错了，怎么回事？

237

1

0

使用Flink cdc 任务的检查点设置为增量的，看checkpoint确实是一增量的方式在保存吗？

188

0

0

在Flink CDC中，有遇到此报错吗？将检查点写入到oss，启动job报错。

193

0

0

在Flink CDC中作业异常以后，会自动从检查点恢复作业，但是为什么一直恢复失败?

139

0

0

任务可以通过深度检查部署成功，但是启动会ddl超时默认的600s，Flink这个参数在哪里设置？

176

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

阿里云云数据库ClickHouse对接使用全流程指南：从零搭建企业级OLAP分析引擎

AI Agent 出问题时，不要只看最终回答：一次请求级调试的思路

AI 时代，实时入湖正在告别 ETL：从 Kafka 到 Iceberg 的架构减法

阿里云数据湖构建DLF完整对接指南：从元数据管理到多引擎集成实践

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

数据守护：防勒索攻击数据保障

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC 能适配达梦不？

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

有用flink cdc同步mysql到hive这样搞过的源码吗?

flinkcdc在IDEA运行正常，打包就报错

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

如何用实时数据同步打破企业数据孤岛？

咨询下各位大佬，用Flink CDC 2.2.0同步MYSQL数据库，库表是latin1编码的时候？

在Flink想实时汇总数据，类似数据大屏功能，应该用阿里云Flink的什么功能服务？

Flink CDC2.4.1的版本sqlserver支持指定时间戳消费了吗？

展开全部

数据仓库介绍与实时数仓案例

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

阿里云实时计算产品案例&解决方案汇总

接着！！Apache Flink 全领域干货合集（持续更新）

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

基于实时计算（Flink）打造一个简单的实时推荐系统

Flink Checkpoint 问题排查实用指南

广告场景下的实时计算

展开全部

还有其他疑问?