开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC为什么作业会一直打印这个日志？

展开

收起

真的很搞笑 2023-06-18 12:58:39 96 版权

阿里云 AI 助理回答

Flink CDC作业一直打印某些日志，可能与以下几个原因相关。以下是详细分析及解决方案：

1. Checkpoint相关的日志

Flink CDC在运行过程中会定期记录Checkpoint的位点信息，尤其是MySQL CDC源表会在每次Checkpoint时打印当前Binlog的消费位点。例如：

Binlog offset on checkpoint {checkpoint-id}: file=mysql-bin.000003, position=12345

原因：这是Flink CDC的正常行为，用于记录当前消费的Binlog位点，以便在作业重启时能够从正确的位点恢复。

解决方案： - 如果这些日志过于频繁且影响排查其他问题，可以调整Checkpoint间隔时间（checkpoint.interval），减少Checkpoint频率。 - 将日志级别从INFO调整为WARN或ERROR，以减少不必要的日志输出。

2. Debezium相关的日志

如果使用了Debezium作为底层连接器，可能会打印一些与Schema解析、数据变更处理相关的日志。例如：

Encountered change event for table xxx.xxx whose schema isn't known to this connector

原因： - 数据库用户权限不足，导致无法读取某些表的Schema信息。 - 配置了'debezium.snapshot.mode'='never'，导致Debezium未正确初始化Schema。 - Binlog中包含无法解析的变更事件。

解决方案： 1. 确保数据库用户具有对所有相关表的读取权限。 2. 避免使用'debezium.snapshot.mode'='never'，改为默认的initial模式。 3. 配置'debezium.inconsistent.schema.handling.mode' = 'warn'，避免因Schema不一致导致报错。

3. Binlog格式或内容异常的日志

如果Binlog格式设置为Mixed，或者Binlog中包含无法解析的事件，可能会打印类似以下日志：

binlog probably contains events generated with statement or mixed based replication format

原因： - MySQL的Binlog格式未设置为ROW，导致CDC工具无法正确解析变更事件。 - Binlog中包含非法或不支持的事件类型。

解决方案： 1. 检查并确保MySQL的Binlog格式为ROW：

show variables like "binlog_format";
set global binlog_format=ROW;

如果Binlog中包含非法事件，可以通过过滤参数跳过这些事件。例如，配置'debezium.event.deserialization.failure.handling.mode'='warn'，将脏数据打印到WARN日志中。

4. TOAST数据相关的日志（Postgres CDC）

如果是Postgres CDC作业，可能会打印与TOAST数据相关的日志。例如：

TOAST data is not transmitted in the WAL log

原因： - TOAST数据较大，为了节省WAL日志大小，Postgres未将未发生变化的TOAST数据写入WAL日志。 - 配置了'debezium.schema.refresh.mode'='columns_diff_exclude_unchanged_toast'，导致wal2json插件未传输TOAST数据。

解决方案： - 确保副本身份是完整的。 - 如果需要TOAST数据，可以调整'debezium.schema.refresh.mode'参数，改为columns_diff模式。

5. 慢Checkpoint或反压相关的日志

如果作业存在慢Checkpoint或反压问题，可能会打印大量与Task Managers（TM）相关的日志。例如：

Checkpoint took longer than expected

原因： - Checkpoint耗时过长，可能是由于状态过大、下游I/O压力过高或网络延迟导致。 - 反压问题可能导致数据处理速度变慢，进而引发Checkpoint超时。

解决方案： 1. 检查慢Checkpoint的具体原因，查看关联的TM日志。 2. 调整Checkpoint间隔时间，优化状态存储。 3. 如果状态过大，考虑启用增量Checkpoint或优化状态算子（如ChangelogNormalize）。

6. DEBUG级别日志过多

如果日志级别被设置为DEBUG，可能会打印大量细粒度的运行状态信息，导致日志量激增。

原因： - 日志级别设置过高，导致DEBUG级别的日志被打印。

解决方案： - 将日志级别调整为INFO，仅保留重要信息的输出。

7. 其他常见日志

全量阶段卡住或OOM问题

如果全量阶段读取时间过长，可能会打印与内存溢出（OOM）相关的日志。例如：

OutOfMemoryError: Java heap space

原因： - 全量阶段数据量过大，导致内存不足。 - 并发度设置不合理，导致单个分片数据量过大。

解决方案： - 增加MySQL Source端的并发度，加快全量读取速度。 - 调整JVM堆内存大小，避免内存不足。

Binlog文件过期

如果Binlog文件被清理，可能会打印类似以下日志：

The connector is trying to read binlog starting at GTIDs ..., but this is no longer available on the server

原因： - MySQL服务器上设置的Binlog文件过期时间太短。 - CDC作业处理Binlog的速度过慢。

解决方案： 1. 增加Binlog的保留时间，例如设置为保留7天：

set global expire_logs_days=7;

分配更多资源给Flink作业，加快处理速度。

总结

Flink CDC作业打印日志的原因多种多样，通常与Checkpoint、Debezium、Binlog格式、慢Checkpoint、DEBUG日志级别等因素相关。根据具体日志内容，结合上述分析和解决方案进行排查和优化，可以有效减少不必要的日志输出并提升作业稳定性。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

流计算实时计算 Flink版日志服务

问答标签：

实时计算 Flink版CDC 实时计算 Flink版作业实时计算 Flink版日志实时计算 Flink版cdc日志实时计算 Flink版作业日志

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

《3D游戏动作交互优化：剑舞穿模与落地延迟的解决策略》

《动漫游戏角色动作优化：手绘帧与物理模拟的协同突破实践》

《2D角色+3D场景：动漫游戏次元融合的技术突破路径》

拔俗AI家庭医生助手服务系统：24小时守护全家健康的智能管家

阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新，共筑基于 Apache Flink Agents 的智能体 AI 未来