flink 消费kafka数据，idea能正常消费，但是提交flink的jar包运行还是报这个错？

Flink CDC Caused by: org.apache.hadoop.ipc.RemoteException: File /flink/yarn/ha/default/blob/job_d8abd7d1c158e3ed63a553ee04175a81/blob_p-143fd61770897b4898cae98fa60efb5d0dabe1ef-2f6bfb3bea4e4f49f7ffeaf5cf46b66a could only be written to 0 of the 1 minReplication nodes. There are 1 datanode(s) running and 0 node(s) are excluded in this operation. 请教下大家，我在这又卡住了。flink 消费kafka数据，idea能正常消费，但是提交flink的jar包运行还是报这个错？（这是flink webui界面的logs提示）

展开

收起

真的很搞笑 2023-11-06 19:58:23 165 版权

2 条回答

写回答

取消提交回答

芯在这

tidb-cdc目前没有实现增量快照框架，无法实现，和flink版本没关系，没资源了。你可以用datax之类的导一份全量数据，然后tidb-cdc走增量数据，此回答整理自钉群“Flink CDC 社区”

2023-11-08 07:41:02

赞同展开评论
sunrr
你的问题是关于Apache Flink在处理Kafka数据时遇到的问题，具体表现为HDFS文件写入失败。这个错误的原因是HDFS集群没有足够的datanode来满足文件的写入要求。

错误消息提示“File /flink/yarn/ha/default/blob/job_d8abd7d1c158e3ed63a553ee04175a81/blob_p-143fd61770897b4898cae98fa60efb5d0dabe1ef-2f6bfb3bea4e4f49f7ffeaf5cf46b66a could only be written to 0 of the 1 minReplication nodes. There are 1 datanode(s) running and 0 node(s) are excluded in this operation.” 这表明尝试写入的文件需要至少一个副本（minReplication），但是目前没有可用的datanode来存储副本。

这个问题可能有以下几个原因：
1. HDFS集群的datanode可能已经满负荷运行，无法处理更多的数据。你可以检查datanode的磁盘空间和使用率，如果需要，可以增加datanode或者清理一些不必要的文件以释放空间。
2. HDFS集群可能正在进行维护或者升级，导致一些datanode不可用。你可以检查HDFS的状态，看看是否有任何的维护或者升级操作正在进行。
3. 你的Flink程序可能正在尝试写入一个非常大的文件，导致datanode无法处理。你可以尝试将文件切分为更小的部分，或者调整Flink程序的代码以减少写入的数据量。
4. 确保你的Flink程序有足够的资源来运行，包括内存和CPU。如果Flink程序资源不足，可能会导致写入HDFS的速度变慢。
2023-11-07 11:30:55

赞同展开评论

flink 消费kafka数据，idea能正常消费，但是提交flink的jar包运行还是报这个错？

实时计算 Flink

相关文章

热门讨论

热门文章