Flink问题之实现state定时输出如何解决

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
简介: Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。

问题一:flink如何在无数据流的情况下也能实现state定时输出的功能?


我想在每天早上八点中定时将state输出到mysql中,利用timer的话是需要在八点附近有一条数据流过来并且判断一下时间才能输出,如何实现在没有数据流过来的时候仍然定时输出state?谢谢


参考回答:

定时器触发不需要有数据,可以设置一个八点的定时器定时触发,具体操作可以百度


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/359126


问题二:Flink sql的state ttl设置有问题怎么做?


想问下state ttl能针对单表设置吗?*来自志愿者整理的flink邮件归档


参考回答:

或许你可以参考这个:

[image: image.png]

https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/dev/table/config/


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/359731


问题三:rocksdb状态后端最多保留checkpoints有问题怎么做?


作业中使用了增量式的rocksdb状态后端,请问如果再设置了最多保留checkpoints个数的话,会不会造成rocksdb state恢复失败?例如,假设完整的state恢复需要最近10个chk,但因为设置了最多保留checkpoints个数为5的话,状态是不是恢复不了了?*来自志愿者整理的flink邮件归档


参考回答:

rocksdb 增量 checkpoint 不是你这么理解的,总的不会恢复不了。原因可以参考下面的材料

-

https://flink.apache.org/features/2018/01/30/incremental-checkpointing.html

官方 blog 介绍


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/359735


问题四:流与流 left join有办法实现吗?


我们现在场景有两个流join,A流left joinB流,A流比B流晚到,而且最晚比B流晚到3小时,用flink sql有啥方法实现吗?*来自志愿者整理的flink邮件归档


参考回答:

sql可以定义cep,捕获匹配流和超时流


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/359737


问题五:求教:动态字段的处理怎么做?


现状: 目前实时数仓的存储和对外数据服务使用hbase,列是不固定的。 举个例子,如果用户新增了一个指标并生成了数据,来源系统的数据总线(kafka)会把生成的数据发送过来(没有声明是新的指标), hbase中需要增加一个指标名称的列并保存和更新相应数据。(实际场景比这个复杂一些) 之前是用python脚本(数据平台完全是python开发的)实现的,实现很简单,但是性能上有一些瓶颈。现在想切换到pyflink,不知道有没有好的方式。 python脚本优化过后(消费kafka->逻辑加工->写入hbase)大概3000条/秒,能勉强满足现有数据的峰值处理。但是数据一直在增长,可见的未来性能一定跟不上了。 请问有没有处理过类似问题的专家方便解答一下?*来自志愿者整理的flink邮件归档


参考回答:

由于你的DDL是变化的,无法提前预知所有字段,所以首先可以确定的是这个场景无法使用Flink SQL解决。

如果使用DataStream解决的话是可行的,唯一可能存在的问题就是目前社区没有提供DataStream的HBase sink。

如果你需要在DataStream中使用HBase sink的话,可能需要你自定义一个HBase sink或者基于社区的HBase SQL connector做一些更改。不过这些更改是需要在Java代码层面的。

至于其他的处理逻辑可以用pyFlink很方便的改写。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/359740

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
11月前
|
SQL 消息中间件 分布式计算
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
212 5
|
8月前
|
存储 SQL 数据挖掘
深入理解 Flink 中的 State
Flink 的 State(状态)是其四大核心之一,为流处理和批处理任务提供强大支持。本文深入探讨 Flink 中的状态管理,涵盖 State 在 HDFS 中的存储格式、存在形式(如 ValueState、ListState 等)、使用方法、过期时间 TTL 和清除策略,并介绍 Table API 和 SQL 模块中的状态管理。通过实际案例,帮助读者理解如何在电商订单处理、实时日志统计等场景中有效利用状态管理功能。
715 16
|
11月前
|
存储 SQL 分布式计算
大数据-127 - Flink State 04篇 状态原理和原理剖析:状态存储 Part2
大数据-127 - Flink State 04篇 状态原理和原理剖析:状态存储 Part2
101 0
|
11月前
|
存储 消息中间件 大数据
大数据-126 - Flink State 03篇 状态原理和原理剖析:状态存储 Part1
大数据-126 - Flink State 03篇 状态原理和原理剖析:状态存储 Part1
213 0
|
11月前
|
存储 SQL 分布式计算
大数据-125 - Flink State 02篇 状态原理和原理剖析:广播状态
大数据-125 - Flink State 02篇 状态原理和原理剖析:广播状态
144 0
|
消息中间件 应用服务中间件 API
Flink四大基石——3.State
Flink四大基石——3.State
179 1
|
SQL 流计算
Flink SQL 在快手实践问题之由于meta信息变化导致的state向前兼容问题如何解决
Flink SQL 在快手实践问题之由于meta信息变化导致的state向前兼容问题如何解决
105 1
|
存储 消息中间件 NoSQL
Flink State 最佳实践
本文主要分享与交流 Flink 状态使用过程中的一些经验与心得,当然标题取了“最佳实践”之名,希望文章内容能给读者带去一些干货。本文内容首先是回顾 state 相关概念,并认识和区别不同的 state backend;之后将分别对 state 使用访问以及 checkpoint 容错相关内容进行详细讲解,分享一些经验和心得。
|
12月前
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。

相关产品

  • 实时计算 Flink版