开发者社区> 问答> 正文

MaxCompute中产生小文件数量多的主要原因是什么?

MaxCompute中产生小文件数量多的主要原因是什么?

展开
收起
xin在这 2021-12-13 00:05:25 788 0
1 条回答
写回答
取消 提交回答
  • 1、表设计不合理导致:分区多导致文件多,比如按天按小时按业务单元(假如有6个业务单元BU)分区,那么一年下来,分区数将会达到365246=52560。

    2、在使用Tunnel、Datahub、Console等数据集成工具上传上传数据时,频繁Commit,写入表(表分区)使用不合理导致:每个分区存在多个文件,文件数达到几百上千,其中大多数是大小只有几 k 的小文件。

    3、在使用insert into写入数据时过,几条数据就写入一次,并且频繁的写入。

    4、Reduce过程中产生小文件过多。

    5、Job执行过程中生成的各种临时文件、回收站保留的过期的文件过多。

    注意:虽然在MaxCompute系统侧会自动做小文件合并的优化,但对于原因1、2、3需要客户采用合理的表分区设计和上传数据的方法才可以避免。

    2021-12-13 00:05:43
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
大数据AI一体化的解读 立即下载
极氪大数据 Serverless 应用实践 立即下载
大数据&AI实战派 第2期 立即下载