开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC我本地直接main方法启动往es塞数据采集的时候id会重复？

Flink CDC我本地直接main方法启动往es塞数据 es的文档id是自动生成的本地跑没问题但是放到flink环境中采集的时候id会重复？

展开

收起

真的很搞笑 2023-10-31 18:42:28 79 版权

阿里云 AI 助理回答

根据您描述的问题，Flink CDC在本地运行时往Elasticsearch（ES）插入数据时文档ID是自动生成的，且没有问题。但在Flink环境中运行时，采集的数据出现了文档ID重复的情况。以下是针对该问题的详细分析和解决方案：

1. 问题原因分析

在Elasticsearch中，文档ID的生成方式取决于是否定义了主键（PRIMARY KEY）。如果未定义主键，Elasticsearch会自动生成随机的文档ID；如果定义了主键，则主键字段的值会被用作文档ID。

本地环境正常的原因：
在本地运行时，可能由于数据量较小或任务运行时间较短，未触发重复数据的写入问题。
Flink环境中出现问题的原因：
Flink CDC在分布式环境下运行时，可能会因为以下原因导致文档ID重复：
1. CDC事件重复投递：
  在非正常情况下（如故障发生），CDC工具（如Canal、Debezium、Maxwell等）只能保证at-least-once语义，可能导致重复的变更事件被投递到Kafka中，进而被Flink消费。
2. Elasticsearch未定义主键：
  如果Elasticsearch结果表未定义主键，系统会自动生成随机文档ID。但由于Flink的分布式特性，多个并行任务可能会生成相同的随机ID，导致冲突。

2. 解决方案

方案一：为Elasticsearch结果表定义主键

为了避免文档ID重复，建议在Elasticsearch结果表中定义主键，并确保主键字段具有唯一性。具体操作如下：

修改DDL语句：
在创建Elasticsearch结果表时，添加PRIMARY KEY定义。例如：
```
CREATE TABLE es_sink (
   user_id STRING,
   user_name STRING,
   uv BIGINT,
   pv BIGINT,
   PRIMARY KEY (user_id) NOT ENFORCED
) WITH (
   'connector' = 'elasticsearch-7',
   'hosts' = '<yourHosts>',
   'index' = '<yourIndex>'
);
```
- PRIMARY KEY (user_id)：指定user_id作为主键，其值将作为Elasticsearch文档的ID。
- NOT ENFORCED：表示不强制校验主键约束，适用于流式场景。
确保主键字段唯一性：
确保user_id字段在源数据中具有唯一性。如果源数据中没有唯一字段，可以通过组合字段生成唯一键。

方案二：启用Flink的去重机制

如果无法修改Elasticsearch结果表的主键定义，可以通过Flink的去重机制解决重复事件问题：

设置作业参数：
在Flink作业中，设置以下参数以启用去重功能：
```
table.exec.source.cdc-events-duplicate=true
```
- 该参数会在Flink中生成一个额外的有状态算子，使用主键对变更事件进行去重。

定义主键：
在Flink源表中定义主键，以便去重算子能够正确识别重复事件。例如：

CREATE TABLE KafkaTable (
   origin_database STRING METADATA FROM 'value.database' VIRTUAL,
   origin_table STRING METADATA FROM 'value.table' VIRTUAL,
   user_id BIGINT,
   item_id BIGINT,
   behavior STRING,
   PRIMARY KEY (user_id) NOT ENFORCED
) WITH (
   'connector' = 'kafka',
   'topic' = 'user_behavior',
   'properties.bootstrap.servers' = 'localhost:9092',
   'properties.group.id' = 'testGroup',
   'scan.startup.mode' = 'earliest-offset',
   'value.format' = 'canal-json'
);

方案三：检查CDC工具的配置

如果问题仍然存在，可能是CDC工具（如Canal、Debezium、Maxwell等）在投递事件时出现了重复。请检查以下配置：

确保CDC工具的投递语义：
- 在正常情况下，CDC工具应保证exactly-once语义。
- 在非正常情况下（如故障发生），CDC工具可能退化为at-least-once语义，导致重复事件。
调整Flink消费策略：
- 确保Flink从Kafka中消费数据时启用了exactly-once语义。例如，设置以下参数：
```
execution.checkpointing.mode=EXACTLY_ONCE
execution.checkpointing.interval=60000
```