请大家帮看一下 这个自动合并分区小文件的 命令为什么不行呢?

"a55939c78e5ef8caccfcff4a6676e9ca.png 帮看一下 这个自动合并分区小文件的 命令为什么不行 "

展开
收起
JWRRR 2023-04-10 16:49:44 614 分享 版权
3 条回答
写回答
取消 提交回答
  • 十年摸盘键,代码未曾试。 今日码示君,谁有上云事。

    使用 hive 自带的 concatenate 命令,自动合并小文件,

    注意:  1、concatenate 命令只支持 RCFILE 和 ORC 文件类型。  2、使用concatenate命令合并小文件时不能指定合并后的文件数量,但可以多次执行该命令。  3、当多次使用concatenate后文件数量不在变化,这个跟参数 mapreduce.input.fileinputformat.split.minsize=256mb 的设置有关,可设定每个文件的最小size。

    2023-04-10 19:00:48
    赞同 1 展开评论
  • 坚持这件事孤独又漫长。

    给个例子吧:

    ALTER TABLE table_name MERGE PARTITION (partition_key1='partition_value1', partition_key2='partition_value2');
    
    • 例如,如果要处理名为my_table的表中,时间分区key为dt,值为2023-04-09的所有小文件,可以输入以下命令:
    ALTER TABLE my_table MERGE PARTITION (dt='2023-04-09');
    
    2023-04-10 17:10:48
    赞同 展开评论
  • 这个函数不能加在这里此回答整理自钉群“DataWorks0群已满,新群请看群公告”

    2023-04-10 17:08:15
    赞同 展开评论

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

收录在圈子:
+ 订阅
还有其他疑问?
咨询AI助理