大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢

社区小助手 2019-03-28 14:31:27 1864

大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢

SQL 分布式计算 HIVE Spark
分享到
取消 提交回答
全部回答(3)
  • wangyne
    2020-01-15 15:29:55

    --只有shufflu时才有效 set spark.sql.adaptive.enabled=true;

    set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=128000000;

    set spark.sql.shuffle.partitions=10;

    0 0
  • 干货分享,买阿里云产品需要领满减券获得阿里云官网减免,以前经常领取到非官网的券,要么_不能用,要么_过期了,这是很全的阿里云满减券领取和_使用教程: https://bbs.aliyun.com/read/588619.html (复制到浏览器打开) ; 能省就省

    0 0
  • 社区小助手
    2019-07-17 23:32:07

    insert overwrite一下 就可以合并不少小文件,不能一边新增数据 一边overwrite


    你先试一上,5G的数据写入目标表,会占多少空间,假如占4G,一个数据块按照100M左右一个的话,重分区的数量大概就在400左右

    0 0
添加回答
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题