Flink CDC 实时同步，任务挂掉了，启动才能保证不丢数据吗

Flink CDC 实时同步，任务挂掉了，再次启动的话是必须从checkpoint启动才能保证不丢数据吗如果checkpoint丢失咋办？2023-11-13 03:33:09,843 ERROR org.apache.flink.util.FatalExitExceptionHandler [] - FATAL: Thread 'flink-scheduler-1' produced an uncaught exception. Stopping the process...
java.lang.OutOfMemoryError: Java heap space
at akka.dispatch.MessageDispatcher.unbatchedExecute(AbstractDispatcher.scala:163) ~[flink-rpc-akka_a6abeac8-0973-4049-bcd5-0127ad161621.jar:1.16.2]
at akka.dispatch.BatchingExecutor.execute(BatchingExecutor.scala:133) ~[flink-rpc-akka_a6abeac8-0973-4049-bcd5-0127ad161621.jar:1.16.2]
at akka.dispatch.BatchingExecutor.execute$(BatchingExecutor.scala:124) ~[flink-rpc-akka_a6abeac8-0973-4049-bcd5-0127ad161621.jar:1.16.2]
at akka.dispatch.MessageDispatcher.execute(AbstractDispatcher.scala:96) ~[flink-rpc-akka_a6abeac8-0973-4049-bcd5-0127ad161621.jar:1.16.2]
at akka.actor.LightArrayRevolverScheduler$TaskHolder.executeTask(LightArrayRevolverScheduler.scala:365) ~[flink-rpc-akka_a6abeac8-0973-4049-bcd5-0127ad161621.jar:1.16.2]
at akka.actor.LightArrayRevolverScheduler$$anon$3.executeBucket$1(LightArrayRevolverScheduler.scala:314) ~[flink-rpc-akka_a6abeac8-0973-4049-bcd5-0127ad161621.jar:1.16.2]
at akka.actor.LightArrayRevolverScheduler$$anon$3.nextTick(LightArrayRevolverScheduler.scala:318) ~[flink-rpc-akka_a6abeac8-0973-4049-bcd5-0127ad161621.jar:1.16.2]
at akka.actor.LightArrayRevolverScheduler$$anon$3.run(LightArrayRevolverScheduler.scala:270) ~[flink-rpc-akka_a6abeac8-0973-4049-bcd5-0127ad161621.jar:1.16.2]
at java.lang.Thread.run(Thread.java:750) [?:1.8.0_382]
2023-11-13 03:33:09,844 ERROR org.apache.flink.runtime.rpc.akka.RobustActorSystem$1 [] - exception on LARS’ timer thread
java.lang.OutOfMemoryError: Java heap space
at akka.dispatch.MessageDispatcher.unbatchedExecute(AbstractDispatcher.scala:163) ~[flink-rpc-akka_a6abeac8-0973-4049-bcd5-0127ad161621.jar:1.16.2]
at akka.dispatch.BatchingExecutor.execute(BatchingExecutor.scala:133) ~[flink-rpc-akka_a6abeac8-0973-4049-bcd5-0127ad161621.jar:1.16.2]
at akka.dispatch.BatchingExecutor.execute$(BatchingExecutor.scala:124) ~[flink-rpc-akka_a6abeac8-0973-4049-bcd5-0127ad161621.jar:1.16.2]
at akka.dispatch.MessageDispatcher.execute(AbstractDispatcher.scala:96) ~[flink-rpc-akka_a6abeac8-0973-4049-bcd5-0127ad161621.jar:1.16.2]
at akka.actor.LightArrayRevolverScheduler$TaskHolder.executeTask(LightArrayRevolverScheduler.scala:365) ~[flink-rpc-akka_a6abeac8-0973-4049-bcd5-0127ad161621.jar:1.16.2]
at akka.actor.LightArrayRevolverScheduler$$anon$3.executeBucket$1(LightArrayRevolverScheduler.scala:314) ~[flink-rpc-akka_a6abeac8-0973-4049-bcd5-0127ad161621.jar:1.16.2]
at akka.actor.LightArrayRevolverScheduler$$anon$3.nextTick(LightArrayRevolverScheduler.scala:318) ~[flink-rpc-akka_a6abeac8-0973-4049-bcd5-0127ad161621.jar:1.16.2]
at akka.actor.LightArrayRevolverScheduler$$anon$3.run(LightArrayRevolverScheduler.scala:270) ~[flink-rpc-akka_a6abeac8-0973-4049-bcd5-0127ad161621.jar:1.16.2]
at java.lang.Thread.run(Thread.java:750) ~[?:1.8.0_382]
2023-11-13 03:33:09,844 INFO org.apache.flink.runtime.rpc.akka.RobustActorSystem$1 [] - starting new LARS thread两个并行度就oom了

展开

收起

真的很搞笑 2023-11-21 09:16:52 280 版权

3 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
根据您提供的日志信息，似乎是因为Flink任务无法分配足够的内存导致OOM（Out Of Memory）异常，从而导致Flink任务崩溃。
您可以通过调整任务的内存大小来解决这个问题。在Flink任务启动时，您可以设置JVM内存大小，并增加堆栈大小以增加可用的内存。例如：
```
./bin/flink run -m yarn-cluster --jars $FLINK_HOME/lib/* -Dtaskmanager.memory.process.size=4000m -Dtaskmanager.heap.size=2048m -ynm myjob ./examples/streaming/MyJob.jar
```
上述示例将把TaskManager的内存大小设为4GB，并将堆栈大小设为2GB。
除了增加内存之外，您还可以考虑其他方法来缓解问题，如：
- 减少任务的并发度：减少任务的并发度可以减轻对内存的压力。
- 减小并行度：减小任务的并行度可以减少内存的需求，并且可以改善总体性能。
2023-11-21 23:12:43

赞同 1 展开评论
sunrr

如果你的Flink任务因为OOM（OutOfMemoryError）错误而失败，那么你需要首先解决内存溢出的问题。这可能是因为你为任务分配的内存不足，或者是因为你的任务产生了大量的垃圾对象导致内存耗尽。

关于如何解决OOM错误，你可以参考这篇文章：https://www.jianshu.com/p/68e15d856f0

至于你提到的Checkpoint丢失的问题，如果你希望在任务失败后从最近的Checkpoint恢复，你需要确保你的任务配置了Checkpoint，并且Checkpoint是成功的。如果Checkpoint成功，它们会被持久化到存储系统中，这样在任务失败后可以从最近的Checkpoint恢复。

如果你的Checkpoint丢失了，你可以尝试重新生成Checkpoint。但是请注意，这可能会导致数据丢失，因为你只能恢复到Checkpoint保存的状态。

2023-11-21 14:58:49

赞同展开评论
小Lee
这个错误提示是由于Java堆内存溢出导致的。Java堆内存用于存放对象实例和数组，当程序试图创建一个新对象或数组时，如果没有足够的内存分配给它们，就会抛出OutOfMemoryError异常。要解决这个问题，有以下几种方法：
1. 增加Java虚拟机（JVM）的最大堆内存大小。可以通过设置-Xms和-Xmx参数来控制JVM初始和最大堆内存大小。例如，如果您想把最大堆内存设置为1GB，可以使用如下命令：
```
-Xms1g -Xmx1g
```
1. 调整Flink的任务并发度。任务并发度是指同时执行的任务数。降低任务并发度可以帮助减少Java堆内存的需求，从而避免内存溢出的问题。
2. 使用更高效的算法或数据结构。优化代码逻辑或采用更高效的算法也可以帮助减少内存使用。
3. 分配更多的物理内存给Flink。如果您的机器有足够的空闲内存，可以考虑增加Flink使用的内存量。
2023-11-21 14:55:30

赞同展开评论

Flink CDC 实时同步，任务挂掉了，启动才能保证不丢数据吗

实时计算 Flink

相关文章

热门讨论

热门文章