记一个压缩格式的问题
问题描述
Hive ORC table常规小文件过多问题,于是用Spark写了一个Application来自动的Merge分区数据,思路很简单大概就是
insert overwrite table partition (分区 XXX) select * from table where (分区 XXX)当然已经把该dataframe repartition到想要的目标并发度,来控制最终分区下的文件个数
但是发现生成的文件个数虽然是对的,但是最后整个分区的Size竟然几乎翻倍。