开发者社区> 问答> 正文

filesystem table parquet 滚动问题是这样的吗?

大家好, 检查点配的是120s,滚动时长800s,滚动大小1kb,并行度配的2 不过在跑的过程中发现不管写入的多快,同时只存在一个in-progress文件,且最终生成的文件是严格按照120s生成的,这个很奇怪,似乎只有按检查点滚动生效了,与json格式的不一样。真的是这样吗?不过看官方文档没有这样说 求大佬们解惑!

create table fs_parquet (userid bigint, name string, part string) PARTITIONED BY (part) with( 'connector' = 'filesystem', 'path' = 'hdfs:///data/fs_parquet', 'format' = 'parquet', 'sink.rolling-policy.file-size' = '1kb', 'sink.rolling-policy.rollover-interval' = '800s', 'sink.rolling-policy.check-interval' = '60s' );*来自志愿者整理的flink邮件归档

展开
收起
EXCEED 2021-12-02 14:52:56 583 0
1 条回答
写回答
取消 提交回答
  • parquet因为它会在内存中攒buffer,所以文件的file-size并不能很精确。。只能等它flush了才会生效。*来自志愿者整理的FLINK邮件归档

    2021-12-02 15:03:02
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Adopting Dataframes and Parquet in an Already Existing Warehouse 立即下载
Spark on Supercomputers--A Tale of the Storage Hierarchy 立即下载
Get rid of traditional ETL, Move to Spark! 立即下载