开发者社区> 问答> 正文

大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢

大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢

展开
收起
社区小助手 2019-03-28 14:31:27 7692 0
3 条回答
写回答
取消 提交回答
  • --只有shufflu时才有效 set spark.sql.adaptive.enabled=true;

    set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=128000000;

    set spark.sql.shuffle.partitions=10;

    2020-01-15 15:29:55
    赞同 展开评论 打赏
  • 干货分享,买阿里云产品需要领满减券获得阿里云官网减免,以前经常领取到非官网的券,要么_不能用,要么_过期了,这是很全的阿里云满减券领取和_使用教程: https://bbs.aliyun.com/read/588619.html (复制到浏览器打开) ; 能省就省

    2019-08-24 02:00:40
    赞同 展开评论 打赏
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    insert overwrite一下 就可以合并不少小文件,不能一边新增数据 一边overwrite


    你先试一上,5G的数据写入目标表,会占多少空间,假如占4G,一个数据块按照100M左右一个的话,重分区的数量大概就在400左右

    2019-07-17 23:32:07
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载