Spark的一些问题汇总 及 Yarn与Spark架构的对比

简介: Spark的一些问题汇总 及 Yarn与Spark架构的对比

1、Spark解决什么问题?

       海量数据的计算可以进行离线批处理以及实时流计算。



2、Spark有哪些模块?

       核心SparkCore、SQL计算(SparkSQL)、流计算(SparkStreaming)、图计算(Graphx)、机器学习(MLlib)


3、Spark有哪些特点?

       速度快、使用简单、通用性强、支持多种模式运行



4、Saprk的运行模式

       本地模式


       集群模式(StandAlone、YARN、K8S)


       云模式


5、Spark的运行角色(对比YARN)

       Master:集群资源管理(类同ResourceManager)


       Worker:单机资源模式(类同NodeManager)


       Driver:单任务管理者(类同ApplicationMaster)


       Executor:单任务执行者(类同YARN容器内的Task)



Yarn、Spark架构对比

1、YARN主要有4类角色,从两个层面去看:


# 资源管理层面


       1、集群资源管理者(Master):ResourceManger(RM)


       2、单机资源管理者(Worker):NodeManger


# 任务计算层面


       1、单任务管理者(Master):ApplicationMaster


       2、单任务执行者(Worker):Task(容器内计算框架的工作角色)

 

2、Spark主要有4类角色,从两个层面去看:

# 资源管理层面

       1、集群资源管理者:Master

       2、单机资源管理者:Worker

# 任务计算层面

       1、单任务管理者:Driver

       2、单任务执行计算者:Executor (干活的)


目录
相关文章
|
20天前
|
资源调度 分布式计算 监控
Spark Standalone与YARN的区别?
【6月更文挑战第17天】Spark Standalone与YARN的区别?
121 57
|
18天前
|
资源调度 分布式计算 监控
YARN的基本架构
【6月更文挑战第19天】YARN的基本架构
32 10
|
2月前
|
分布式计算 资源调度 监控
Spark架构
【4月更文挑战第26天】架构对于技术来说,是技术的灵魂。
|
2月前
|
资源调度 分布式计算 Hadoop
【Hadoop Yarn】YARN 基础架构分析
【4月更文挑战第7天】【Hadoop Yarn】YARN 基础架构分析
|
2月前
|
资源调度 分布式计算 Hadoop
Apache Hadoop YARN基本架构
【2月更文挑战第24天】
|
2月前
|
资源调度 分布式计算 Hadoop
Hadoop Yarn 核心调优参数
这是一个关于测试集群环境的配置说明,包括3台服务器(master, slave1, slave2)运行CentOS 7.5,每台有4核CPU和4GB内存。集群使用Hadoop 3.1.3,JDK1.8。Yarn核心配置涉及调度器选择、ResourceManager线程数、节点检测、逻辑处理器使用、核心转换乘数、NodeManager内存和CPU设置,以及容器的内存和CPU限制。配置完成后,需要重启Hadoop并检查yarn配置。
|
2月前
|
SQL 分布式计算 资源调度
Hadoop Yarn 配置多队列的容量调度器
配置Hadoop多队列容量调度器,编辑`capacity-scheduler.xml`,新增`hive`队列,`default`队列占总内存40%,最大60%;`hive`队列占60%,最大80%。配置包括队列容量、用户权限和应用生存时间等,配置后使用`yarn rmadmin -refreshQueues`刷新队列,无需重启集群。多队列配置可在Yarn WEB界面查看。
|
21天前
|
资源调度 分布式计算 Hadoop
实时计算 Flink版产品使用问题之yarn session模式中启动的任务链接是http IP,想把IP映射为主机hadoop,该怎么操作
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】(图片来源于网络)(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第5天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
80 9
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
【4月更文挑战第4天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
49 4