有大佬们遇到用HoodieFlinkStreamer时,会生成很多rollback文件么, 我在排查

有大佬们遇到用HoodieFlinkStreamer时,会生成很多rollback文件么, 我在排查过程中发现: 在拉起整个任务的时候,会一直调用AbstractStreamWriteFunction的initializeState方法,我理解initializeState应该只是会在算子的初始化或者异常恢复的时候调用吧(目前没发现啥异常), initializeState调用时会异步发消息生成deltacommit和rollback文件

展开
收起
雪哥哥 2022-11-13 20:08:48 423 分享 版权
1 条回答
写回答
取消 提交回答
  • 存在即是合理

    HoodieFlinkStreamer 是一个基于 Hoodie 的 Flink 驱动,它可以帮助开发人员在 Flink 上运行 Hoodie 应用程序。在使用 HoodieFlinkStreamer 时,可能会生成很多 rollback 文件,这是因为 Hoodie 应用程序在运行时会生成大量的日志和配置文件。

    要解决这个问题,您可以尝试以下几种方法:

    1、使用 Flink 的日志记录器:Hoodie 应用程序在运行时会生成大量的日志和配置文件。您可以使用 Flink 的日志记录器来捕获这些文件,并在需要时进行处理。

    2、使用 Flink 的配置文件:Hoodie 应用程序会在启动时创建一个 config.yaml 配置文件。您可以使用 Flink 的配置文件功能来读取和处理这些配置文件。

    3、使用 Flink SQL 的 Explain 函数:Hoodie 应用程序在运行时会生成大量的日志和配置文件。您可以使用 Flink SQL 的 Explain 函数来查看这些文件,并确定哪些文件被频繁创建和删除。

    4、使用 Flink SQL 的 StreamingContext 和 ExecutionEnvironment API:Hoodie 应用程序在运行时会生成大量的日志和配置文件。您可以使用 Flink SQL 的 StreamingContext 和 ExecutionEnvironment API 来处理这些文件。

    2023-04-19 14:08:11
    赞同 1 展开评论

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

收录在圈子:
实时计算 Flink 版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由 Apache Flink 创始团队官方出品,拥有全球统一商业化品牌,完全兼容开源 Flink API,提供丰富的企业级增值功能。
还有其他疑问?
咨询AI助理