开发者社区> 问答> 正文

Hive 数仓表中从源头上控制小文件数量的方法有哪些?

Hive 数仓表中从源头上控制小文件数量的方法有哪些?

展开
收起
游客qzzytmszf3zhq 2021-12-09 20:48:57 234 0
1 条回答
写回答
取消 提交回答
  • • 使用 Sequencefile 作为表存储格式,不要用 textfile,在一定程度上可以减少小文 件

    • 减少 reduce 的数量(可以使用参数进行控制)

    • 少用动态分区,用时记得按 distribute by 分区

    2021-12-09 20:49:06
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
新氧云原生全栈数仓最佳实践 立即下载
离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进 立即下载
企业大数据平台下数仓架构 立即下载