问题一:Flink CDC我参与计算的规则是来自于第三方mysql数据库的,除了CDC这种方案还有哪种方案?
Flink CDC我参与计算的规则是来自于第三方mysql数据库的,除了CDC这种方案,还有哪种方案?
参考回答:
除了CDC之外,还有很多种其他的方案可以用于从第三方 MySQL 数据库中获取实时数据,比如以下几种:
- Binlog 直接订阅:这是一种比较传统的方法,可以在 MySQL 的二进制日志文件中提取变动数据,然后通过一些工具把提取的结果转发给 Flink 处理。这种方案的好处是可以控制粒度,但缺点是对代码要求较高。
- 数据订阅服务:像 RabbitMQ、Apache Pulsar、Redis Stream 等都可以作为中介层,实现对 MySQL 数据库的实时订阅,再把这些数据传送给 Flink 处理。这种方案的优点是代码简洁易用,但需要增加额外的中间组件。
- 实时查询:通过 JPA、Hibernate 等 ORM 框架实现 MySQL 实时查询,这种方式更加简单,但是会对数据库造成较大的压力,不适合作为高性能的数据源。
- Spark Streaming 或 Apache Beam:可以连接 MySQL 并读取实时数据,然后进行实时分析。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/566216
问题二:Flink CDC这个大家有什么办法不cp,让数据可见?
Flink CDC这个大家有什么办法不cp,让数据可见?doris Whether the 2pc is enabled or not, data visibility depends on flink checkpoint time
参考回答:
在Flink CDC中,要确保数据可见性通常需要依赖于checkpoint机制。这是因为checkpoint可以保证即使在出现故障的情况下,也能够保证数据的一致性和完整性。然而,这并不意味着必须要进行checkpoint才能使数据可见。实际上,Flink CDC支持两种模式的数据读取:精确一次(Exactly-Once)和至少一次(At-Least-Once)。在精确一次模式下,每个数据项都会被处理且仅被处理一次,这种模式是最能保证数据一致性的。而在至少一次模式下,每个数据项都会被处理,但不保证每条数据只被处理一次。
对于Doris来说,无论2PC(两阶段提交)是否启用,数据可见性都取决于Flink的checkpoint时间。如果checkpoint时间设置得当,那么即使在系统发生故障的情况下,也可以确保数据的一致性和完整性。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/566214
问题三:Flink CDC时区的问题怎么搞定的?
Flink CDC时区的问题怎么搞定的?
参考回答:
我之前在2.2版本重写了jsonDebezium那个类,自行修正的时间
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/566213
问题四:Flink CDC中SqlServer 同步 至 doris,全量期间数据不会实际插入doris吗?
Flink CDC中SqlServer 同步 至 doris,全量期间数据不会实际插入doris吗?
参考回答:
在 Flink CDC 中,SqlServer 同步至 Doris 的过程中,只有增量变化才会被插入 Doris 中。全量阶段主要是为了获取 SqlServer 的元信息,并不实际插入数据。这也是 Flink CDC 与其他工具的不同之处,它可以减少传输过程中的开销。
如果您想要同步全量数据,可以考虑在完成元信息获取后使用 Doris 自带的导入工具,或者使用外部脚本进行导入。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/566212
问题五:Flink CDC2.4.1版本SQL server CDC是默认增量快照吗?
Flink CDC2.4.1版本SQL server CDC是默认增量快照吗?
参考回答:
是的
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/566211