Flink CDC 的生产环境高可用部署架构图主要包含以下几个部分:
这种架构的优点在于,它借助了Flink丰富的上下游生态,具有高度的灵活性和可扩展性。同时,Flink相对于Kafka Streams而言,其算子和SQL模块更为成熟和易用,可以通过调整算子并行度来优化作业性能。
在Flink CDC的生产环境高可用部署架构图中,主要采用了Flink SQL CDC + Elasticsearch的方式实现。首先,Flink SQL支持CDC模式的数据同步,能将MySQL中的全增量数据实时采集、预计算,并同步到Elasticsearch中,这样Elasticsearch就能作为我们的实时报表和即席分析引擎。
值得一提的是,Flink CDC相对于Kafka Streams具有一些明显的优势。例如,Flink的算子和SQL模块更成熟易用;通过调整算子并行度的方式,可以轻松扩展处理能力;Flink支持高级的状态后端(State Backends),允许存取海量的状态数据;Flink提供更多的Source和Sink等生态支持;Flink有更大的用户基数和活跃的支持社群,问题更容易解决;最后,Flink的开源协议允许云厂商进行全托管的深度定制,这一点是Kafka Streams无法做到的。
在Flink作业运行架构中,JobManager负责协调每个Flink作业的部署,它负责调度和资源管理。默认情况下,每个Flink集群都有一个JobManager实例。这就是Flink CDC在生产环境的高可用部署架构图的主要组成部分。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。