文档备案控制台

开发者社区问答正文

Spark中Repartition是什么？

Spark中Repartition是什么？

展开

收起

芯在这 2021-12-08 22:05:35 383 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

简单的说：返回一个恰好有numPartitions个分区的RDD，可以增加或者减少此RDD的并行度。内部，这将使用shuffle重新分布数据，如果你减少分区数，考虑使用coalesce，这样可以避免执行shuffle。目的：

避免小文件

减少 Task 个数

但是会增加每个 Task 处理的数据量

2021-12-08 22:06:02

赞同展开评论

问答分类：

分布式计算 Spark

问答标签：

apache spark Repartition

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Spark经常说的Repartition是什么？

808

1

0

spark中的Repartition和Coalesce有什么区别？

405

1

0

spark中的Repartition和Coalesce有什么关系？

391

1

0

spark中的Repartition和Coalesce的区别是什么？

814

1

0

spark中的Repartition和Coalesce的关系是什么？

414

1

0

spark任务想完整的部署，发布，执行调度，仅仅maxcompute组件权限够么，还需要datawo

978

1

0

Spark 读取Maxcompute 中的表进行处理，怎么弄？

1043

1

0

maxcompute的底层引擎我用的都是mr，他是可以切换成spark吗？

2058

1

0

我想咨询下，我们的maxcompute spark程序需要访问redis，开发环境和生产环境redi

991

1

0

MaxCompute 的 spark 能读 odps 的 resource 资源吗

1227

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

云原生数据库 PolarDB MySQL 版属于信创名单里面的数据库吗？

QoderWork CN 非常喜欢用英文是什么原因呢，经常中文里夹杂着一大段英文

自定义模型Mimo v2.5不支持图片但是Mimo官网显示是可以支持多模态的，并且也支持图片

Qoder CN积分单独购买更贵的问题

2026年阿里云618活动什么时候开始？入口在哪里？

相关文章

Hudi 湖仓一体架构：阿里云 AnalyticDB MySQL 原生集成最佳实践

湖仓一体落地实践：阿里云 AnalyticDB MySQL + Hudi/Iceberg 最佳架构方案

基于NSGA-III进化算法的多目标电路优化器

推荐系统中的主要陷阱

多智能体集群审计机制设计：免疫、熔断与信誉治理

还有其他疑问?