备案控制台

开发者社区问答正文

大佬们咨询个问题，就是使用Spark On Hive时，动态的将数据插入到Hive中，但是在Hive的数据表下会有很多文件，这个可以怎么设置一下呢

大佬们咨询个问题，就是使用Spark On Hive时，动态的将数据插入到Hive中，但是在Hive的数据表下会有很多文件，这个可以怎么设置一下呢

展开

收起

社区小助手 2019-03-28 14:31:27 7827 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

wangyne

--只有shufflu时才有效 set spark.sql.adaptive.enabled=true;

set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=128000000;

set spark.sql.shuffle.partitions=10;

2020-01-15 15:29:55

赞同展开评论
阿里云管家（附最新优惠）

资深产品经理

干货分享，买阿里云产品需要领满减券获得阿里云官网减免，以前经常领取到非官网的券，要么_不能用，要么_过期了，这是很全的阿里云满减券领取和_使用教程： https://bbs.aliyun.com/read/588619.html （复制到浏览器打开）；能省就省

2019-08-24 02:00:40

赞同展开评论
社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

insert overwrite一下就可以合并不少小文件，不能一边新增数据一边overwrite

你先试一上，5G的数据写入目标表，会占多少空间，假如占4G，一个数据块按照100M左右一个的话，重分区的数量大概就在400左右

2019-07-17 23:32:07

赞同展开评论

问答分类：

SQL 分布式计算 HIVE Spark

问答标签：

Hive spark apache spark Hive spark Hive apache spark数据 apache spark文件

问答地址：

开发者社区 > 大数据 > 问答

相关问答

MaxCompute spark如何引用依赖的文件/资源

110

1

0

E-MapReduce开启使用DLF统一元数据后本地开发spark程序想访问emr hive中...

95

0

0

通过spark-sql客户端往hive的一个表随便插入一条数据，然后在hive中查询这个表报错.

335

1

0

大数据计算MaxCompute 执行 Hive Sql 时，用的什么引擎啊，是Spark 吗？

141

1

0

DMS任务编排跨库Spark SQL节点是否支持将数据导出到OSS单个文件

73

1

0

DataWorks中spark作业时是集群环境嘛，该怎么做才能保证每台服务器都有相应的文件呢？

89

1

0

容器服务ASK中spark读云存储s3文件太慢的问题有遇到过吗？

141

1

0

Flink CDC同步到hudi 可以直接读取hudi 的数据吗例如用hive 或者spark？

174

2

0

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法

7064

2

0

spark任务想完整的部署，发布，执行调度，仅仅maxcompute组件权限够么，还需要datawo

914

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

12月冬日咖啡礼｜大模型解决方案邀你来体验

相关文章

数据湖不是湖，是江湖：Delta Lake / Iceberg / Hudi 到底该选谁？

蓝易云：解决MySQL "ONLY_FULL_GROUP_BY" 错误的方案

蓝易云：结合Spring和MyBatis实现DAO层操作综述

Agent Skills 的一次工程实践

别再全量拉表了兄弟：一篇讲透增量数据处理与 CDC 的实战指南

还有其他疑问?