文档备案控制台

开发者社区问答正文

大佬们咨询个问题，就是使用Spark On Hive时，动态的将数据插入到Hive中，但是在Hive的数据表下会有很多文件，这个可以怎么设置一下呢

大佬们咨询个问题，就是使用Spark On Hive时，动态的将数据插入到Hive中，但是在Hive的数据表下会有很多文件，这个可以怎么设置一下呢

展开

收起

社区小助手 2019-03-28 14:31:27 7872 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

wangyne

--只有shufflu时才有效 set spark.sql.adaptive.enabled=true;

set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=128000000;

set spark.sql.shuffle.partitions=10;

2020-01-15 15:29:55

赞同展开评论
阿里云管家（附最新优惠）

资深产品经理

干货分享，买阿里云产品需要领满减券获得阿里云官网减免，以前经常领取到非官网的券，要么_不能用，要么_过期了，这是很全的阿里云满减券领取和_使用教程： https://bbs.aliyun.com/read/588619.html （复制到浏览器打开）；能省就省

2019-08-24 02:00:40

赞同展开评论
社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

insert overwrite一下就可以合并不少小文件，不能一边新增数据一边overwrite

你先试一上，5G的数据写入目标表，会占多少空间，假如占4G，一个数据块按照100M左右一个的话，重分区的数量大概就在400左右

2019-07-17 23:32:07

赞同展开评论

问答分类：

SQL 分布式计算 HIVE Spark

问答标签：

Hive spark apache spark Hive spark Hive apache spark数据 apache spark文件

问答地址：

开发者社区 > 大数据 > 问答

相关问答

E-MapReduce开启使用DLF统一元数据后本地开发spark程序想访问emr hive中...

122

0

0

通过spark-sql客户端往hive的一个表随便插入一条数据，然后在hive中查询这个表报错.

370

1

0

大数据计算MaxCompute 执行 Hive Sql 时，用的什么引擎啊，是Spark 吗？

160

1

0

Flink CDC同步到hudi 可以直接读取hudi 的数据吗例如用hive 或者spark？

200

2

0

各位，Flink 的离线计算的数据是怎么存放的？是存在 HDFS（或Hive）上的吗？

1929

6

0

flink1.16不支持hive2.1了吗？

937

1

0

flink CDC可以直接将mysql中的数据直接写入到hive中吗？

835

1

0

你好，现在flink cdc 在增量阶段可以实现upsert到iceberg（hive）吗？我用f

665

0

0

当我使用flink cdc+ iceberg+hive同步数据，启用upsert时，提交sql jo

1807

1

0

flink写hive全是小文件咋整啊，大佬们？

2084

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

OpenClaw Gateway Token 获取？

阿里云千问Token价格怎么收费？

内存被通义灵码吃光了。我电脑总共48G的内存，被通义灵码吃掉了30几G，你们搞什么飞机？

我下载的gguf文件，最新的LMSTUDIO仍然无法识别什么问题

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

相关文章

OpenClaw + ClaudeCode 在企业数据仓库开发中的实践

Mysql指南大全（新手也能轻松掌握的Mysql教程）第一卷

Microsoft SQL Server 2026 年 3 月安全更新发布，修复 SQL 服务器特权提升漏洞

告别先开发后治理：Agent 驱动的数据质量一体化交付

Mysql指南大全（新手也能轻松掌握的Mysql教程）第二卷

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

多模态数据信息提取

分析 Agent 实现一键 AI 数据洞察

数据守护：防勒索攻击数据保障

还有其他疑问?