实时计算 Flink版产品使用合集之可以按日期统计数据并且能够撤回已落库数据吗-阿里云开发者社区

实时计算 Flink版产品使用合集之可以按日期统计数据并且能够撤回已落库数据吗

2024-05-17 251

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

问题一：Flink CDC中Oracle的cdc监听，对于时间字段默认加了8小时，可以通过参数设置不加吗？

Flink CDC中Oracle的cdc监听，对于时间字段默认加了8小时，这个可以通过参数设置不加吗？

参考回答：

加资源都不是问题，大表join也不是只能用状态，lookup join也可以。不过大数据量上复杂需求的实现和后续维护确实麻烦。我觉得做是能做，但是得考虑下ROI，大表流join确实有可能join不到数据，数据有问题也不好排查。

准确性肯定是不如离线的，但是也不能说偏差很多，往离线的准确性上靠。

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/567556

问题二：flink sql 按日期统计数据，日期变更，怎样撤回已经落库的数据？

flink sql 按日期统计数据，日期变更，怎样撤回已经落库的数据？多个大表join状态会很大，实时join的话，状态读写的效率是影响实时性的主要因素吧

参考回答：

处理大表要很多时间吧，对实时性很不利

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/567555

问题三：Flink CDC更适合做报警这类实时性要求高，对数据准确性没有很高要求的？

Flink CDC不用来做多张大表的实时join，理由是状态太大，出问题不好排查，flink更适合做报警这类实时性要求高，对数据准确性没有很高要求的？

参考回答：

Flink CDC 能够用于多张大表的实时 Join，但也需要注意一些问题。

首先，由于 Flink CDC 在处理大量数据时需要存储中间状态，所以在处理多张大表的实时 Join 时可能会导致状态过大。如果状态过大，会导致内存溢出等问题，严重影响系统的稳定性和性能。此时，可以考虑减少 Join 操作的规模，采用分批或分片的方式，降低单次 Join 的数据量。

其次，Flink CDC 本身也存在一定的局限性，例如其对状态管理的能力相对较弱，不能很好地应对大数据量和复杂的查询场景。在这种情况下，可能需要借助其他工具或服务进行配合，比如 Apache Spark、Apache Hive 等。

最后，在进行实时 Join 时，还需要考虑数据质量问题，包括数据延迟、数据乱序等问题，这些问题可能导致 Join 结果的准确性受到影响。

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/567554

问题四：Flink CDC真要把表名都带进去么？

Flink CDC真要把表名都带进去么？传表名是没问题的，表配*

1.任务先启动跑着增量模式

2.新建表往里加数据

3.savepoint

4.savepoint恢复

5.新建的表里没有同步数据

参考回答：

是的，在 Flink CDC 中，必须明确地将表名传入到 Flink CDC 执行环境中才能完成 SQL 查询，您可以选择一次性指定所有表名或指定范围内的表名。

另外，在不同的场景下，有不同的参数可供选择：

全局表名：通过指定全部表名来扫描所有的表名；
表名称范围：通过指定范围内的表名来筛选表名；
表前缀：通过指定表前缀筛选出匹配的部分表名；
表后缀：通过指定表后缀筛选出匹配的部分表名。

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/567553

问题五：Flink CDC设置了log.mining.batch. size.max后没效果，这个怎么处理？

Flink CDC设置了log.mining.batch. size.max后没效果，这个怎么处理？

参考回答：

当你发现设置 log.mining.batch.size.max 参数后没有任何效果时，可能有以下几个原因：

参数设置不正确：首先要确认 log.mining.batch.size.max 参数是否设置正确。建议在调试过程中先检查一下这个参数的值是否正确。
Oracle 日志配置有问题：除了设置参数之外，还需要检查 Oracle 数据库的日志配置，确保 LogMiner 可以正常工作。具体来说，要确认 Oracle 数据库的日志模式是否正确，归档日志是否开启，以及日志保留时间等参数是否满足要求。
其他因素：除此之外，还要检查其他可能影响 LogMiner 工作的因素。例如，网络连接状况、磁盘空间大小等因素，都可能会影响到 LogMiner 的工作。

如果以上都没有问题，你也可以考虑使用其他的解决方案来改善 LogMiner 的性能。例如，可以考虑减小 log.mining.batch.size.max 参数的值，以减小内存消耗；或者增加 log.mining.batch.size.max 参数的值，以提高处理速度。此外，还可以考虑启用多个 LogMiner 进程来分散负载，并使用多个线程并行处理 LogMiner 操作，从而提升性能。

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/567552