文档备案控制台

开发者社区问答正文

Spark的数据本地性有哪几种？

Spark的数据本地性有哪几种？

展开

收起

茶什i 2019-10-28 16:07:57 3181 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

bigbigtree

PROCESS_LOCAL 进程本地化，表示 task 要计算的数据在同一个 Executor 中。

NODE_LOCAL 节点本地化，速度稍慢，因为数据需要在不同的进程之间传递或从文件中读取。分为两种情况，第一种：task 要计算的数据是在同一个 worker 的不同 Executor 进程中。第二种：task 要计算的数据是在同一个 worker 的磁盘上，或在 HDFS 上恰好有 block 在同一个节点上。如果 Spark 要计算的数据来源于 HDFSD 上，那么最好的本地化级别就是 NODE_LOCAL。

NO_PREF 没有最佳位置，数据从哪访问都一样快，不需要位置优先。比如 Spark SQL 从 Mysql 中读取数据。

RACK_LOCAL 机架本地化，数据在同一机架的不同节点上。需要通过网络传输数据以及文件 IO，比 NODE_LOCAL 慢。情况一：task 计算的数据在 worker2 的 EXecutor 中。情况二：task 计算的数据在 work2 的磁盘上。

ANY 跨机架，数据在非同一机架的网络上，速度最慢。

2020-03-19 19:58:01

赞同展开评论
问问小秘

答：Spark中的数据本地性有三种： a.PROCESS_LOCAL是指读取缓存在本地节点的数据 b.NODE_LOCAL是指读取本地节点硬盘数据 c.ANY是指读取非本地节点数据通常读取数据PROCESS_LOCAL>NODE_LOCAL>ANY，尽量使数据以PROCESS_LOCAL或NODE_LOCAL方式读取。其中PROCESS_LOCAL还和cache有关，如果RDD经常用的话将该RDD cache到内存中，注意，由于cache是lazy的，所以必须通过一个action的触发，才能真正的将该RDD cache到内存中。

2019-10-28 16:30:30

赞同展开评论

问答分类：

分布式计算 Spark

问答标签：

apache spark数据 apache spark数据本地性

问答地址：

开发者社区 > 大数据 > 问答

相关问答

请教一个问题。我在用spark读取hbase数据时，默认是一个regoin一个task。发现有些re

1323

0

0

任务编排里的跨库spark sql 数据加工用不了

815

0

0

storm&spark2中dateframe可以从不同的数据源获取数据吗？如果可以都可以获取哪些啊？

1262

1

0

spark 中的数据是以什么方式存在的啊？

2484

1

0

flink有api可以像 spark那样批出 kafka数据吗？

1047

6

0

跨库spark SQL 搞不定，数据从a库查询的结果，存入b库的表中

641

1

0

我现在用开源spark读取hive是这样配置的用EMR 内置的spark想读取hive数据该怎么弄

808

1

0

Dataworks上的ODPS spark处理数据会比直接用ODPS SQL效率高吗？

1060

1

0

Spark的转换数据是如何完成计算的呢？

645

1

0

Hadoop和Spark在数据读取方面有什么不同？

550

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

QoderWork CN 非常喜欢用英文是什么原因呢，经常中文里夹杂着一大段英文

Qoder CN积分单独购买更贵的问题

Qoder CN IDE 如何登录Qoder自己的账号，而不是阿里云的啊？？？

电脑ide都关了，通义灵码和Qorder这俩搁这干嘛呢，阿里的开发者就这水平？内存管理就做成这？

Qoder CN Qwen3.7-Max积分扣除与宣传不一致

相关文章

Hudi 湖仓一体架构：阿里云 AnalyticDB MySQL 原生集成最佳实践

阿里云Qwen3.7-Max的模型能力、模型表现、适用场景，最新5折起等优惠活动介绍

阿里云服务器内存型热门深度对比：内存型r8i、r8y、r9i、r9a实例性能对比与选购指南

多Agent协同系统：从"协作工具"到"战略生产系统"的架构演进

基于NSGA-III进化算法的多目标电路优化器

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

数据守护：防勒索攻击数据保障

还有其他疑问?