大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢

2019-03-28 14:31:27 5969 3

大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢

取消 提交回答
全部回答(3)
  • wangyne
    2020-01-15 15:29:55

    --只有shufflu时才有效 set spark.sql.adaptive.enabled=true;

    set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=128000000;

    set spark.sql.shuffle.partitions=10;

    0 0
  • 干货分享,买阿里云产品需要领满减券获得阿里云官网减免,以前经常领取到非官网的券,要么_不能用,要么_过期了,这是很全的阿里云满减券领取和_使用教程: https://bbs.aliyun.com/read/588619.html (复制到浏览器打开) ; 能省就省

    0 0
  • 社区小助手
    2019-07-17 23:32:07

    insert overwrite一下 就可以合并不少小文件,不能一边新增数据 一边overwrite


    你先试一上,5G的数据写入目标表,会占多少空间,假如占4G,一个数据块按照100M左右一个的话,重分区的数量大概就在400左右

    0 0
添加回答
相关问答

1

回答

Spark中数据的位置是如何管理的?

2021-12-07 17:39:53 113浏览量 回答数 1

1

回答

Spark中数据的位置是被谁管理的啊?

2021-12-06 17:31:09 146浏览量 回答数 1

3

回答

Spark中数据的位置是被谁管理的?

2019-10-28 16:07:47 2768浏览量 回答数 3

1

回答

Spark Streaming 原理是什么?

2022-01-13 15:54:26 1118浏览量 回答数 1

1

回答

Spark Streaming中的DStream的转化操作是什么?

2021-12-07 20:17:05 111浏览量 回答数 1

1

回答

Spark Streaming中的DStream的输出操作是什么?

2021-12-07 20:17:49 136浏览量 回答数 1

1

回答

spark streaming中的foreachRDD(func)方法是什么?

2021-12-07 08:05:05 291浏览量 回答数 1

1

回答

如何使用Spark Streaming SQL进行 PV/UV统计?

2020-12-28 11:38:30 486浏览量 回答数 1

1

回答

使用Spark Streaming SQL进行 PV/UV统计的准备工作?

2020-12-28 11:39:00 418浏览量 回答数 1

1

回答

spark streaming实时程序 进程总是运行三四个小时左右不知道原因挂掉

2019-12-20 21:25:15 877浏览量 回答数 1
+关注
社区小助手
社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。
12
文章
824
问答
问答排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载