开发者社区大数据与机器学习实时计算 Flink 正文

有用flinkcdc datastream增量快照模式拉取过pg的数据吗?

有大佬用flinkcdc datastream增量快照模式拉取过pg的数据吗?

展开

收起

真的很搞笑 2024-04-17 14:05:41 87 版权

阿里云 AI 助理回答

Flink CDC 支持通过增量快照模式拉取 PostgreSQL 数据，但需要满足一定的前提条件和配置要求。以下是详细的解答：

1. 增量快照模式的支持情况

Flink CDC 的增量快照功能允许在读取全量数据时支持并行读取，并且能够在读取过程中支持基于 chunk 粒度的检查点。这种模式可以显著提高性能，尤其是在处理大规模数据时。

PostgreSQL 增量快照的支持版本
根据知识库信息，增量快照功能是实验性功能，仅在实时计算引擎 8.0.6 及以上版本 中支持。因此，您需要确保使用的 Flink 版本符合这一要求。
开启增量快照的参数
在使用 PostgreSQL CDC 时，可以通过以下参数启用增量快照模式：
```
'scan.incremental.snapshot.enabled' = 'true'
```
默认情况下，该参数为 false，需要显式设置为 true 才能启用增量快照功能。

2. 配置逻辑解码插件

PostgreSQL 的逻辑解码（Logical Decoding）是实现增量快照的基础。您需要确保 PostgreSQL 数据库上安装了支持逻辑解码的插件。

推荐插件
- pgoutput：PostgreSQL 10 及以上版本的官方内置插件，推荐使用。
- decoderbufs：需要单独安装，适用于 PostgreSQL 9.6 及以上版本。
配置示例：
```
'decoding.plugin.name' = 'pgoutput'
```
逻辑解码槽（Slot）配置
每个表都需要设置一个唯一的逻辑解码槽名称，以避免冲突。例如：
```
'slot.name' = 'your_slot_name'
```
如果未设置 slot.name，可能会导致报错，如 PSQLException: ERROR: replication slot "debezium" is active for PID 974。

3. 启动模式的选择

在消费 PostgreSQL 数据时，可以选择不同的启动模式来控制数据读取行为。

常用启动模式
- initial（默认）：首次启动时会先扫描历史全量数据，然后读取最新的 WAL 日志数据。
- latest-offset：直接从最新的 WAL 日志处开始读取，忽略历史数据。
- snapshot：仅扫描历史全量数据，作业完成后停止。
示例配置：
```
'scan.startup.mode' = 'initial'
```

4. 注意事项与限制

PostgreSQL 备库不支持增量数据读取
根据知识库信息，Flink CDC 2.4.0 版本不支持同步 PostgreSQL 备库的数据，因为 PostgreSQL 本身也不支持备库读取增量数据。因此，增量快照模式只能应用于主库。
网络与权限要求
- PostgreSQL 实例和 Flink 工作空间需要位于同一 VPC 下。如果不在同一 VPC，需确保网络连通性。
- 需要为 Flink 工作空间的网段配置 PostgreSQL 的白名单。
资源消耗与性能调优
- 增量快照模式会将表切分为多个 chunk 进行读取，每个 chunk 的大小可以通过以下参数调整：
```
'scan.incremental.snapshot.chunk.size' = '8096'
```
较小的 chunk 大小会增加 chunk 数量，可能导致内存 OOM 或吞吐量降低，需根据实际场景权衡设置。

5. 总结配置示例

以下是一个完整的 PostgreSQL CDC 增量快照模式配置示例：

CREATE TABLE postgres_source (
    id INT,
    username STRING,
    score INT
) WITH (
    'connector' = 'postgres-cdc',
    'hostname' = 'your_postgres_host',
    'port' = '5432',
    'username' = 'your_username',
    'password' = 'your_password',
    'database-name' = 'your_database',
    'table-name' = 'your_table',
    'decoding.plugin.name' = 'pgoutput',
    'slot.name' = 'your_slot_name',
    'scan.incremental.snapshot.enabled' = 'true',
    'scan.startup.mode' = 'initial',
    'scan.incremental.snapshot.chunk.size' = '8096'
);