Flink CDC 的生产环境高可用部署架构图主要包含以下几个部分:
- Flink SQL CDC:作为核心组件,支持 CDC 模式的数据同步。它能从各种数据源中实时采集、预计算并同步数据,如MySQL、Oracle、MongoDB等。
- Elasticsearch:作为实时报表和即席分析引擎,接收并存储由Flink SQL CDC同步过来的数据。
- Kafka或Pulsar消息队列:在需要的时候,Flink CDC可以将数据写入这些消息队列,实现异步处理和解耦。
- 下游存储系统:如Hudi、Iceberg、Paimon等数据湖,或者支持写入各种数据仓库,以提供持久化和备份。
这种架构的优点在于,它借助了Flink丰富的上下游生态,具有高度的灵活性和可扩展性。同时,Flink相对于Kafka Streams而言,其算子和SQL模块更为成熟和易用,可以通过调整算子并行度来优化作业性能。