Flink CDC里EXACTLY_ONCE 不可以设置呢？

Flink CDC里EXACTLY_ONCE semantic, but checkpointing is not enabled. Switching to NONE semantic. 为什么开checkpoint producer不可以设置EXACTLY_ONCE？

展开

收起

小小鹿鹿鹿 2024-02-06 21:48:09 218 版权

阿里云 AI 助理回答

在Flink CDC中，当您尝试将Kafka Producer的语义设置为EXACTLY_ONCE时，如果未启用Flink的Checkpoint机制，系统会自动降级为NONE语义。这是因为EXACTLY_ONCE语义的实现依赖于Flink的Checkpoint机制来确保数据的一致性和可靠性。

以下是详细的原因和背景说明：

1. EXACTLY_ONCE语义的实现依赖Checkpoint

EXACTLY_ONCE语义的核心是通过Flink的Checkpoint机制来保证数据的精确一次处理。具体来说： - Flink会在每次Checkpoint时，将Kafka事务的状态与Flink的状态进行同步。 - Kafka Producer会使用事务来确保消息的写入要么完全成功，要么完全回滚，从而避免数据丢失或重复。 - 如果未启用Checkpoint，Flink无法记录Kafka事务的状态，也就无法保证EXACTLY_ONCE语义。

因此，当Checkpoint未启用时，Flink无法提供事务性保障，系统会自动切换到NONE语义（即不提供任何保障）。

2. 启用Checkpoint的必要配置

为了支持EXACTLY_ONCE语义，您需要在Flink作业中显式启用Checkpoint，并正确配置相关参数。以下是一个典型的配置示例：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 启用Checkpoint，设置间隔时间（例如10秒）
env.enableCheckpointing(10000, CheckpointingMode.EXACTLY_ONCE);

此外，还需要确保以下几点： - Kafka集群支持事务：Kafka Broker版本需为0.11及以上，且启用了事务功能。 - Producer池大小与并发Checkpoint数量匹配：EXACTLY_ONCE模式下，Flink会使用一个固定大小的Kafka Producer池。如果并发的Checkpoint数量超过Producer池的大小，可能会导致作业失败。

3. EXACTLY_ONCE语义的注意事项

即使启用了Checkpoint，使用EXACTLY_ONCE语义时仍需注意以下事项： - 事务延迟：在Flink作业正常运行期间，写入Kafka的数据可能会有延迟，延迟时间约为Checkpoint的平均间隔。 - 故障恢复：如果Flink作业在第一个Checkpoint之前发生故障，重启后不会保留之前的Producer池信息。因此，在第一个Checkpoint完成之前缩减并行度是不安全的^{[1]</。 - Consumer隔离级别：对于运行在read_committed模式下的Kafka Consumer，任何未结束的事务都会阻塞对该Topic的读取。因此，建议合理设置事务超时时间，以避免长时间阻塞。}

4. 解决方案

如果您希望使用EXACTLY_ONCE语义，请按照以下步骤操作： 1. 启用Checkpoint：

env.enableCheckpointing(10000, CheckpointingMode.EXACTLY_ONCE);

配置Kafka Producer的Delivery Guarantee：在Kafka Sink中明确指定DeliveryGuarantee.EXACTLY_ONCE：

KafkaSink<String> sink = KafkaSink.<String>builder()
   .setBootstrapServers("localhost:9092")
   .setRecordSerializer(KafkaRecordSerializationSchema.builder()
       .setTopic("your-topic")
       .setValueSerializationSchema(new SimpleStringSchema())
       .build())
   .setDeliverGuarantee(DeliveryGuarantee.EXACTLY_ONCE)
   .build();