文档备案控制台

开发者社区大数据文章正文

Spark SQL repartition 为啥生成的文件变大了？

2020-05-29 2344

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

记录一个客户问题

客户用Spark SQL的repartition接口来解决Hive ORC表小文件的问题，发现文件膨胀的很厉害

比如原来有1000个小文件，总大小是500MB
repartition(10) 再 insert overwrite之后

10个文件总大小是2～3GB

但是检查了一下最终的两个分区的 row count是一致的

调查结论

先说一下这两接口不同

repartition 把record完全打乱最终随机插入到10个文件有Shuffle
coalesce 把相邻的分区的数据捏在一起，没有Shuffle

为啥shuffle打乱数据会让最终的表输出文件变大

其实就是 ORC 数据编码问题
原来的源分区其实是通过HashPartition的方式分布的，这样的数据分布可以让ORC的编码压缩得更加极致，而repartition完全打乱后导致本来在一个文件的相同记录分布到10个文件，那就是每个文件都有该记录的编码索引，那么最终文件就变大了

所以推荐使用 coalesce 接口来做类似的事情

文章标签：

分布式计算

SQL

索引

Spark

HIVE

关键词：

apache spark SQL

SQL spark

SQL文件

apache spark文件

apache spark sql文件

峰七（林学维）

目录

相关文章

游客kufrkwrbkmpsa

|

SQL Java 数据库连接

【YashanDB知识库】解决mybatis的mapper文件sql语句结尾加分号";"报错

【YashanDB知识库】解决mybatis的mapper文件sql语句结尾加分号";"报错

游客kufrkwrbkmpsa

629 1 1

Aron_NeAr

|

SQL JSON 分布式计算

Spark SQL架构及高级用法

Spark SQL基于Catalyst优化器与Tungsten引擎，提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行，支持复杂数据类型、窗口函数与多样化聚合操作，结合自适应查询与代码生成技术，实现高性能大数据分析。

Aron_NeAr

841 2 3

游客pb5c4iyea3ani

|

SQL Java 数据库连接

【YashanDB 知识库】解决 mybatis 的 mapper 文件 sql 语句结尾加分号";"报错

【YashanDB 知识库】解决 mybatis 的 mapper 文件 sql 语句结尾加分号";"报错

游客pb5c4iyea3ani

808 6 6

瓴羊Dataphin

|

SQL 分布式计算资源调度

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

瓴羊Dataphin

524 4 4

Apache_Tomcat_Nignx

|

SQL 关系型数据库 MySQL

MySQL导入.sql文件后数据库乱码问题

本文分析了导入.sql文件后数据库备注出现乱码的原因，包括字符集不匹配、备注内容编码问题及MySQL版本或配置问题，并提供了详细的解决步骤，如检查和统一字符集设置、修改客户端连接方式、检查MySQL配置等，确保导入过程顺利。

Apache_Tomcat_Nignx

1609 3 3

技术小达人

|

SQL 分布式计算 Java

Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化

本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享，主要内容包括以下四个部分： 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作

技术小达人

2263 0 0

lsug6eziqmdfk1111

|

SQL 数据库

为什么 SQL 日志文件很大，我应该如何处理？

为什么 SQL 日志文件很大，我应该如何处理？

lsug6eziqmdfk1111

1053 6 6

赵渝强老师

|

SQL JSON 分布式计算

【赵渝强老师】Spark SQL的数据模型：DataFrame

本文介绍了在Spark SQL中创建DataFrame的三种方法。首先，通过定义case class来创建表结构，然后将CSV文件读入RDD并关联Schema生成DataFrame。其次，使用StructType定义表结构，同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后，直接加载带有格式的数据文件（如JSON），通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。

赵渝强老师

505 0 0

lsug6eziqmdfk1111

|

SQL 数据库

为什么SQL日志文件很大，该如何处理？

为什么SQL日志文件很大，该如何处理？

lsug6eziqmdfk1111

1105 0 0

武子康

|

消息中间件分布式计算 Kafka

大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流

大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流

武子康

340 0 0

热门文章

最新文章

Spark SQL性能优化

Spark SQL玩起来

阿里巴巴瑾谦/沐远：云HBaseSQL及分析——Phoenix&Spark

【译】使用Spark SQL 运行大规模基因组工作流

EMR Spark Relational Cache的执行计划重写

钉钉群直播【Spark Relational Cache 原理和实践】

云栖社区2019年1月技术活动：PG， Java，Spark等30+场预告【持续更新】

Spark 环境搭建_下载和解压 Spark 安装包|学习笔记

HiveOnSpark 报错：java.lang.IllegalStateException(Connection to remote Spark driver was lost)‘ Last kno

Spark Mllib里如何将trainDara训练数据文件里提取第M到第N字段（图文详解）

SQL语言小结

（SQL）SQL语言中的查询语句整理

为什么这些 SQL 语句逻辑相同，性能却差异巨大？

SQL日志优化策略：提升数据库日志记录效率

阿里云数据库RDS费用价格：MySQL、SQL Server、PostgreSQL和MariaDB引擎收费标准

阿里云数据库收费价格：MySQL、PostgreSQL、SQL Server和MariaDB引擎费用整理

SQL Server 2025 RC1 发布 - 从本地到云端的 AI 就绪企业数据库

MCP与PolarDB集成技术分析：降低SQL门槛与简化数据可视化流程的机制解析

阿里云数据库RDS支持MySQL、SQL Server、PostgreSQL和MariaDB引擎

生成更智能，调试更轻松，SLS SQL Copilot 焕新登场！

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

SQL完全自学手册

SQL Server on Linux入门教程

SQL入门与实践

数据库及SQL/MySQL基础

SQL进阶及查询

相关电子书

更多

SQL Server在电子商务中的应用与实践

GeoMesa on Spark SQL

原生SQL on Hadoop引擎- Apache HAWQ 2.x最新技术解密malili

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！