文档备案控制台

开发者社区问答正文

spark中的partition和block的关联具体是什么啊？

spark中的partition和block的关联具体是什么啊？

展开

收起

游客vwuxaq6iqaowc 2021-12-06 21:15:27 348 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客hveo756ydhs3k

hdfs中的block是分布式存储的最小单元，等分，可设置冗余，这样设计有一部分磁盘空间的浪费，但是整齐的block大小，便于快速找到、读取对应的内容 Spark中的partition是RDD的最小单元，RDD是由分布在各个节点上的partition组成的。 partition是指的spark在计算过程中，生成的数据在计算空间内最小单元同一份数据（RDD）的partion大小不一，数量不定，是根据application里的算子和最初读入的数据分块数量决定 block位于存储空间；partion位于计算空间，block的大小是固定的、partion大小是不固定的，是从2个不同的角度去看数据。

2021-12-06 21:15:42

赞同展开评论

问答分类：

分布式计算 Spark

问答标签：

apache spark partition

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Spark3 Dynamic Partition Pruning是什么？

1613

2

0

请教一下，spark sql 执行比如select * from table where day >='2018-05-04' 后面限定过滤后的具体partition访问源码里是在哪个阶段哪个函数获取的

2729

0

0

spark任务想完整的部署，发布，执行调度，仅仅maxcompute组件权限够么，还需要datawo

953

1

0

Spark 读取Maxcompute 中的表进行处理，怎么弄？

1015

1

0

maxcompute的底层引擎我用的都是mr，他是可以切换成spark吗？

2032

1

0

我想咨询下，我们的maxcompute spark程序需要访问redis，开发环境和生产环境redi

957

1

0

MaxCompute 的 spark 能读 odps 的 resource 资源吗

1187

1

0

MaxCompute 的 spark 不支持 df.createOrReplaceGlobalTem

1261

20

0

请教个问题，Spark on MaxCompute是基于内存的吗？会不会比直接用odps sql写要

831

1

0

MaxCompute Spark中磁盘空间不足的表现形式是什么？

1001

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

2026年速看！阿里云大模型Qwen3.5 - Omni介绍及活动一览

2026年一文读懂：阿里云大模型Qwen3.6 - Plus是啥，还有优惠介绍

2026年深度解读：阿里云千问大模型（AI大模型）介绍及优惠活动详细说明

2026年阿里云千问大模型介绍，AI大模型奥秘与优惠活动说明

2026年阿里云千问大模型深度介绍：涵盖产品特性与优惠活动汇总

相关文章

Java并发工具包的精髓——从锁到队列再到原子变量

阿里云非特价云服务器有哪些？经济型e实例3.9折，通用算力型u2i实例3折，九代云服务器6.4折优惠

阿里云大数据 AI 产品月刊-2026年3月

大数据分析：如何高效查询海量IP归属地？

安全养虾实践：当 AI 管家遇到线上预警，我的提效破局之路

还有其他疑问?