备案控制台

开发者社区问答正文

使用 StreamingFileSink后 checkpoint状态中的数据如何hive读取

本人使用的StreamingFileSink将数据按照行保存到hdfs中 StreamingFileSink streamingFileSink = StreamingFileSink. forRowFormat(new Path(path), new SimpleStringEncoder ("UTF-8")) .withBucketAssigner(bucketAssigner) .withRollingPolicy( DefaultRollingPolicy.builder()

withRolloverInterval(TimeUnit.HOURS.toMillis(1))

withInactivityInterval(TimeUnit.MINUTES.toMillis(30)) withMaxPartSize(1024 * 1024 * 1024) build()) withOutputFileConfig( OutputFileConfig.builder() withPartSuffix(partSuffix) build() ) build(); 配置如上,checkpoint的配置是10分钟一次,现在有个疑惑想要问下,现在hdfs上文件只是在半个小时都是未完成状态, 如 .part-0-11606723036.inprogress.5b46f31b-8289-44e9-ae26-997f3e479446 这种的处于 inprocress状态,但是我这checkpoint是10分钟一次,如果我的任务在29分钟挂了,那么hdfs上这个文件就肯定不是FINISHED状态,那么那20分钟的数据我这应该怎么处理. 我这现在按照默认的处理中,hive对于inprogress的数据是直接过滤掉的,我这把文件改成正常的名称是能读取到*来自志愿者整理的flink邮件归档

展开

收起

小阿怪 2021-12-06 12:38:28 956 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

毛毛虫雨

你需要使用oncheckpoint的policy，这样在每次Checkpoint时会滚动文件*来自志愿者整理的flink邮件归档

2021-12-06 14:44:20

赞同展开评论

问答分类：

SQL HIVE 流计算实时计算 Flink版

问答标签：

Hive数据

问答地址：

开发者社区 > 大数据 > 问答

相关问答

各位，Flink 的离线计算的数据是怎么存放的？是存在 HDFS（或Hive）上的吗？

1849

6

0

如果不想让Hive将数据移动到仓库目录中，还可以怎样管理数据呢？

1608

1

0

Hive里创建表时会怎样管理数据呢？

1760

1

0

Hive中的数据一般驻留在哪些地方呢？

1690

1

0

Hive在读模式下load时会进行数据的校验吗？

1636

1

0

Hive中可以分成哪几类数据访问模式呢？

565

1

0

数据已经在Hive中如何对它运行一个查询呢？

1479

1

0

flink CDC可以直接将mysql中的数据直接写入到hive中吗？

795

1

0

我用hudi DeltaStreamer同步远程的hive库的数据到我们hudi,报的这个错方便看一

319

0

0

当我使用flink cdc+ iceberg+hive同步数据，启用upsert时，提交sql jo

1638

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

上传文件时提示“Illegal file path”，怎么解决的？

阿里云ESA是什么？边缘安全加速和CDN有什么区别？

阿里云短信收费标准，短信群发平台是怎么收费的？

通义灵码使用代理报错

idea通义灵码插件，更新后怎么一直用英文回答。开始对话时，告诉它之后的问题使用中文回答也不行

相关文章

货拉拉用户画像基于 Apache Doris 的数据模型设计与实践

构建AI智能体：三十四、LangChain SQLDatabaseToolkit终极指南：架构、优势与最佳实践

Quick BI使用案例02：基于人员维度的指定时间段订单分组排序

Quick BI V6.0发布：让人人都能拥有的「超级数据分析师」到底强在哪？

从“攒一锅再算”到“来一条就干一条”：大数据批处理到流处理的进化之路

还有其他疑问?