请问大佬Flink CDC 中 sqlserver cdc 2.2.1 拉取大表就会出现 2023-

请问大佬Flink CDC 中 sqlserver cdc 2.2.1 拉取大表就会出现 2023-04-27 07:08:39,095 INFO io.debezium.connector.sqlserver.SqlServerSnapshotChangeEventSource [] - Locking table SettleSnap.dbo.Orders 如何解决呢

展开

收起

真的很搞笑 2023-05-02 08:02:26 128 版权

阿里云 AI 助理回答

在使用 Flink CDC 的 SQL Server CDC 连接器（版本 2.2.1）时，如果遇到拉取大表时出现类似以下日志信息：

2023-04-27 07:08:39,095 INFO io.debezium.connector.sqlserver.SqlServerSnapshotChangeEventSource [] - Locking table SettleSnap.dbo.Orders

这表明 Debezium 在执行全量快照（Snapshot）阶段时对目标表进行了锁定操作。这种锁定行为可能会导致性能问题，尤其是在处理大表时。以下是解决该问题的详细方法和建议：

1. 调整 Snapshot 模式

Debezium 提供了多种 Snapshot 模式，可以通过配置参数 debezium.snapshot.mode 来控制快照的行为。默认情况下，SQL Server CDC 使用 initial 模式，该模式会在快照阶段对表加锁以确保数据一致性。为了避免锁定表，可以尝试以下替代模式：

schema_only 模式
仅捕获表的 Schema，而不读取全量数据。增量阶段会从 Binlog 中读取变更数据。
```
'debezium.snapshot.mode' = 'schema_only'
```
never 模式
完全跳过快照阶段，直接从 Binlog 中读取增量数据。需要注意的是，这种方式要求 Binlog 中包含完整的数据变更历史。
```
'debezium.snapshot.mode' = 'never'
```
initial_blocking 模式
如果必须执行全量快照，可以选择 initial_blocking 模式，它会阻塞其他写入操作直到快照完成。虽然仍会对表加锁，但可以减少锁定时间。

注意：选择合适的 Snapshot 模式需要根据业务需求权衡数据一致性和性能影响。

2. 增加数据库资源

如果无法避免全量快照阶段的锁定操作，可以通过增加数据库资源来缩短锁定时间，从而降低对业务的影响：

提升硬件性能
增加 CPU、内存或磁盘 I/O 性能，以加快快照读取速度。
优化表结构
确保目标表有适当的索引，尤其是主键索引，以加速快照扫描过程。
调整并发度
在 Flink 作业中适当增加并行度，分摊快照读取的压力。

3. 配置心跳事件

对于大表的 Binlog 同步，Flink CDC 支持通过心跳事件推动 Binlog 位点前进，从而减少对快照的依赖。可以在 Source 配置中启用心跳事件功能：

'heartbeat.interval.ms' = '5000', -- 心跳间隔，单位为毫秒
'heartbeat.timeout.ms' = '15000'  -- 心跳超时时间

心跳事件的引入可以有效缓解因慢表更新导致的 Binlog 过期问题。

4. 手动预热数据

如果业务允许，可以通过手动方式将大表的数据预先导入到目标系统中，然后配置 SQL Server CDC 仅同步增量数据。具体步骤如下：

导出全量数据
使用工具（如 bcp 或 SQL Server Management Studio）将目标表的全量数据导出到文件。
导入目标系统
将导出的数据导入到下游系统（如 Hologres、Elasticsearch 等）。
配置增量同步
设置 debezium.snapshot.mode 为 never，让 Flink CDC 仅从 Binlog 中读取增量数据。

5. 检查 Binlog 配置

确保 SQL Server 的 CDC 功能已正确启用，并且 Binlog 配置满足以下要求：

启用 CDC 功能
确保目标表已启用 CDC：

EXEC sys.sp_cdc_enable_table
  @source_schema = 'dbo',
  @source_name = 'Orders',
  @role_name = NULL;

调整 Binlog 保留时间
如果 Binlog 文件被清理过快，可能导致增量数据丢失。可以通过以下命令延长 Binlog 保留时间：
```
EXEC sp_cdc_change_job @job_type = 'capture', @pollinginterval = 5; -- 调整轮询间隔
```

6. 监控与调优

在解决问题后，建议对作业进行监控和调优，以确保稳定运行：

监控指标
使用 Flink 的监控页面查看 currentEmitEventTimeLag 和 sourceIdleTime 指标，判断快照和增量阶段的性能瓶颈。
调整超时参数
如果作业因复杂 SQL 导致超时，可以增加 RPC 超时时间：
```
flink.sqlserver.rpc.execution.timeout: 600s
```