实时计算 Flink版产品使用问题之如何避免集群重启后job信息和运行状态丢失-阿里云开发者社区

实时计算 Flink版产品使用问题之如何避免集群重启后job信息和运行状态丢失

2024-07-16 80 发布于安徽

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

问题一：Flink CDC里一般怎么解决维表更新问题，维表数据可能比主表数据后到的情况怎么办？

Flink CDC里一般怎么解决维表更新问题，维表数据可能比主表数据后到的情况，我看官方文档有个look up hint 的功能，所以来试试怎么搞？

参考答案：

可以使用无界流模式下的异步查找（Async Lookup）：

使用 Temporal Table Function 或者 Async I/O API 实现异步查找。在这种模式下，Flink会在join操作时保留尚未找到匹配项的记录，并在后续周期内继续查找最新的维表数据。这种方式可以有效地处理维表数据延迟到达的问题。

look up hint是Flink CDC中的一个功能，它可以用于优化维表查询的性能。当维表数据可能比主表数据更新的情况下，使用look up hint可以告诉Flink在执行维表查询时优先从维表获取数据。这样可以在一定程度上解决维表更新问题，提高查询的准确性和性能。

使用look up hint的方法如下：

在Flink SQL中，使用WITH子句指定要使用的hint。例如：

SELECT /*+ LOOK_UP('维表别名') */ ... FROM 主表 ...

在Flink CDC的源代码中，使用TableSource和TableSink接口实现自定义的源和汇操作，并在其中使用hint方法指定要使用的hint。例如：

TableSource<MyTableData> tableSource = new MyTableSource();
TableSink<MyTableData> tableSink = new MyTableSink();
TableResult result = env.sqlUpdate(
    "SELECT /*+ LOOK_UP('维表别名') */ ... FROM 主表 ...",
    tableSource, tableSink);

需要注意的是，look up hint并不能完全解决维表更新问题，它只能在一定程度上优化查询性能。如果维表的数据更新非常频繁，或者维表的数据量非常大，可能会导致查询结果仍然不准确。在这种情况下，可能需要采取其他策略来解决维表更新问题，例如定期同步维表和主表的数据、使用版本控制机制等。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/590885

问题二：Flink CDC里阿里云VVR可以接管我们自建的Flink集群吗？

Flink CDC里阿里云VVR可以接管我们自建的Flink集群吗？

参考答案：

那好像不行.如果自有集群，还是推荐dinky吧，毕竟人家有cdas。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/590884

问题三：Flink CDC里我写了一个look up hint 没有生效，怎么办？

Flink CDC里我写了一个look up hint 没有生效，，flink 版本1.16 ，不知道啥原因？

参考答案：

如果你在Flink CDC中写了一个look up hint但没有生效，你可以尝试以下几种方法：

检查你的look up hint是否正确。确保你在正确的表和字段上使用了look up hint，并且hint的值是正确的。
检查你的Flink版本是否支持look up hint。Flink CDC的look up hint是在Flink 1.13版本中引入的，如果你使用的是更早的版本，可能不支持这个功能。
检查你的Flink配置。确保你的Flink配置中包含了look up hint的相关设置。例如，你需要在flink-conf.yaml文件中添加以下配置：

table.execution.arrow.max-records-per-batch: 1000
table.execution.arrow.max-records-per-stream: 1000
table.execution.arrow.max-records-per-user-buffer: 1000
table.execution.arrow.min-batch-size: 0
table.execution.arrow.min-num-rows-for-batch: 0
table.execution.arrow.min-partition-size: 0
table.execution.arrow.partition-size: 1048576
table.execution.arrow.preferred-buffer-size: 134217728
table.execution.arrow.row-based-output-format: true
table.execution.arrow.use-memory-mapped-buffers: false
table.execution.arrow.use-thread-local-buffers: false

如果以上方法都无法解决问题，你可以尝试升级你的Flink版本或者联系Flink社区寻求帮助。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/590883

问题四：Flink CDC里解决办法是不是要设置好对应的重启策略啊？

Flink CDC里就是我这边搭建的flink standolone HA(基于zk + hdfs) 的集群重启后上面运行的job信息都会丢失解决办法是不是要设置好对应的重启策略和checkpoint或者savepoint来实现？

参考答案：

找个开发平台管理任务我推荐阿里云vvr。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/590882

问题五：Flink CDC里mysqlcdc 源库有2张表一下子更新几万条数据任务会挂掉这种情况？

Flink CDC里mysqlcdc 源库有2张表一下子更新几万条数据任务会挂掉这种情况有什么好的办法？除了增加内存。

参考答案：

试试加上这几个debezium的配置行不行。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/590880

实时计算 Flink版产品使用问题之如何避免集群重启后job信息和运行状态丢失

问题一：Flink CDC里一般怎么解决维表更新问题，维表数据可能比主表数据后到的情况怎么办？

问题二：Flink CDC里阿里云VVR可以接管我们自建的Flink集群吗？

问题三：Flink CDC里我写了一个look up hint 没有生效，怎么办？

问题四：Flink CDC里解决办法是不是要设置好对应的重启策略啊？

问题五：Flink CDC里mysqlcdc 源库有2张表一下子更新几万条数据任务会挂掉这种情况？