《Spark与Hadoop大数据分析》一一3.6 Spark 资源管理器:Standalone、YARN和Mesos

简介:

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.6节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.6 Spark 资源管理器:Standalone、YARN和Mesos

在本章其他部分(在 PySpark shell 和应用程序中),我们已经在 Spark 的 Standalone 资源管理器中执行过 Spark 应用程序。让我们尝试理解这些集群资源管理器相互之间有什么不同,以及它们该在什么情况下使用。
3.6.1 本地和集群模式
在继续讲解集群资源管理器之前,让我们来了解集群模式与本地模式的区别。
当跨集群执行代码时,了解变量和方法的范围和生命周期非常重要。让我们看一个使用 foreach 动作的例子:

在本地模式下,前面的代码执行正常,因为计数器(counter)变量和 RDD 在相同的内存空间(单个 JVM)里。
在集群模式下,计数器 counter 的值永远不会改变,并且始终保持为 0。在集群模式下,Spark 会计算出带有变量和方法的闭包,并将它们发送到执行进程。当执行进程执行这个 foreach 函数时,它指向的是执行进程上的计数器的新副本。执行进程不能访问驱动进程上的计数器。因此,每次执行此操作时,本地计数器都会递增,但不会返回到驱动进程。要在集群模式下解决此问题,需要为每个闭包创建一个单独的变量副本,或使用一个累加变量。
3.6.2 集群资源管理器
你可以在四种不同的模式下运行 Spark 应用程序:
本地模式:在本地模式下,所有进程在单个 JVM 中运行,并且不会像在集群模式下那样进行数据的混排。
如果指定了 spark.master(或--master)配置属性,应用程序会在它指定的一个集群资源管理器上运行,运行在客户端还是集群模式则取决于指定的 --deploy-mode 参数。
Standalone 模式:将 Spark 应用程序提交到 Spark 的内置集群管理器。
YARN 模式:将 Spark 应用程序提交到 YARN 资源管理器。
Mesos 模式:将 Spark 应用程序提交到 Mesos 集群管理器。

  1. Standalone
    默认情况下,以 Standalone模式提交的应用程序会占用集群的所有 CPU 内核(根据 spark.deploy.defaultCores 属性),并给每个执行进程分配 1G 内存。在多个应用程序的环境中,重要的是限制每个应用程序占用的资源上限。限制 CPU 内核占用的方式可以利用 spark-submit 的 --total-executor-cores 参数,或 Spark 配置文件中的 spark.cores.max 参数。要限制占用的内存,可以利用 spark-submit 的 --executor-memory 参数,或 Spark 配置文件中的 spark.executor.memory 参数。

在本示例中,我们使用一个 20 节点的集群,每个节点有 4 个 CPU 内核:
在没有指定参数的情况下,一个应用程序将启动 20 个具有 4 个 CPU 内核和 1 GB 内存的执行进程。
--executor-memory 1G 和 --total-executor-cores 8:Spark 将启动 8 个执行进程,每个执行进程有 1 GB 的内存。
spark conf 里的 spark.deploy.spreadOut 设为 false:Spark 将启动 2 个执行进程,每个执行进程具有 1 GB 的内存和 4 个 CPU 内核。

  1. YARN
    应用程序可以用 --master yarn-client 参数提交,即为客户端模式;或用 --master yarn-cluster 参数提交,即为集群模式。在 Yarn 模式下,你可以指定所需的执行进程数与 CPU 内核数,这可以对照 Spark 的 Standalone 主机中的 -total-executor-cores 参数。

--num-executors 参数控制的是分配执行进程的数量(默认值为2)。该属性在配置中可以用 spark.executor.instances 来设置。
--executor-memory 参数对应每个执行进程的内存数量。
--executor-cores 对应的是每个执行进程的 CPU 内核数量。
在本示例中,我们使用了一个 20 节点的集群,每个节点有 4 个 CPU 内核:
如果没有指定参数,应用程序将启动 2 个执行进程,每个执行进程有 1 个 CPU 内核和 1 GB 内存。
--num-executors 8 --executor-memory 2G --executor-cores 4 :Spark 将启动 8 个执行进程,每个执行进程有 2 GB 内存和 4 个 CPU 内核。
下载示例代码
在本书的前言中讲解了下载代码包的详细步骤。请查阅。
该书的代码包也在 GitHub 上有托管,网址为:https://github.com/PacktPublishing/big-data-analytics
动态资源分配
动态资源分配功能是在 Spark 1.2 中引入的。应用程序可以把不会再用到的资源返回给集群,并在以后需要时再次请求它们。动态的资源分配可以有效率地控制集群上的资源使用。如图3-12 所示,由于存在运行较慢的节点(straggler)、调度、等待、空闲等情况,所有 Spark 应用程序中分配和使用的资源都有很大的变化。
要启用此功能,可以在应用程序中设置以下配置属性:
spark.dynamicAllocation.enabled
spark.dynamicAllocation.minExecutors
spark.dynamicAllocation.maxExecutors
spark.dynamicAllocation.initialExecutors
spark.shuffle.service.enabled
请注意,在启用动态分配时,不要使用 spark.executor.instances(或 --num-executors)参数。如果两者都使用,动态分配将被禁用,生效的会是 --num-executors 。

image

图3-12 资源分配和资源使用情况
客户端模式和集群模式
在 YARN 客户端模式下运行 Spark 时,驱动进程在客户端计算机上运行,应用管理器和执行进程在集群上运行。每个 Spark 执行进程会作为客户端或集群模式下的一个 YARN 容器运行。
在 YARN 集群模式下,驱动进程在应用管理器中运行。因此,应用管理器负责运行驱动进程和从 YARN 资源管理器请求资源。启动应用程序的客户端在应用程序的整个生命周期中并不需要一直介入。
YARN 集群用于生产作业,而 YARN 客户端模式用于交互模式,在这种模式下,你可以即时看到应用程序的输出。
YARN 客户端模式和集群模式如图3-13 所示。
YARN的更多设置可以参考: http://spark.apache.org/docs/latest/running-on-yarn.html

  1. Mesos
    Apache Mesos 是一个通用的集群管理器,它可以在集群上运行分析任务及长时间运行的服务(例如 Web 应用程序或键值存储)。请参阅以下示例用法:

image

图3-13 YARN 的客户端模式和集群模式
Mesos 中有两种类型的调度模式:
细粒度:细粒度模式的表现和 Yarn 类似。执行进程在执行任务时会对它们请求的 CPU 数量进行上下调整,因此运行多个执行进程的一台机器可以在它们之间动态地共享 CPU 资源。这是默认模式。
粗粒度:粗粒度模式的表现和 Standalone 类似。Spark 会预先为每个执行进程分配固定数量的 CPU,并且在应用程序结束之前不会释放它们,即使执行进程当前没有运行任务。你可以通过传递以下参数来启用粗粒度模式:

  1. 该使用哪种资源管理器
    当在 Hadoop 集群上把 Spark 和其他应用程序配套使用时,最好使用 YARN 来更好地共享资源。在无需担心改善性能和共享资源的情况下,可以使用 Standalone 管理器。Mesos 和 Yarn 提供了类似的资源共享功能。在 Hadoop 集群上,使用 YARN 是合适的,因为 Hadoop 的所有其他框架都与 Yarn 集成了。对于非 Hadoop 集群,使用 Mesos 也是可行的。
相关文章
|
2天前
|
分布式计算 大数据 数据处理
Apache Spark在大数据处理中的应用
Apache Spark是大数据处理的热门工具,由AMPLab开发并捐赠给Apache软件基金会。它以内存计算和优化的执行引擎著称,提供比Hadoop更快的处理速度,支持批处理、交互式查询、流处理和机器学习。Spark架构包括Driver、Master、Worker Node和Executor,核心组件有RDD、DataFrame、Dataset、Spark SQL、Spark Streaming、MLlib和GraphX。文章通过代码示例展示了Spark在批处理、交互式查询和实时数据处理中的应用,并讨论了其优势(高性能、易用性、通用性和集成性)和挑战。【6月更文挑战第11天】
25 6
|
3天前
|
分布式计算 数据可视化 大数据
基于spark的医疗大数据可视化大屏项目
基于spark的医疗大数据可视化大屏项目
|
3天前
|
机器学习/深度学习 数据采集 分布式计算
基于spark的大数据分析预测地震受灾情况的系统设计
基于spark的大数据分析预测地震受灾情况的系统设计
|
3天前
|
分布式计算 Kubernetes Spark
大数据之spark on k8s
大数据之spark on k8s
|
12天前
|
分布式计算 Spark 大数据
深入探究Apache Spark在大数据处理中的实践应用
【6月更文挑战第2天】Apache Spark是流行的开源大数据处理框架,以其内存计算速度和低延迟脱颖而出。本文涵盖Spark概述、核心组件(包括Spark Core、SQL、Streaming和MLlib)及其在数据预处理、批处理分析、交互式查询、实时处理和机器学习中的应用。通过理解Spark内部机制和实践应用,可提升大数据处理效率,发挥其在各行业的潜力。
|
15天前
|
分布式计算 Hadoop 大数据
分布式计算框架比较:Hadoop、Spark 与 Flink
【5月更文挑战第31天】Hadoop是大数据处理的开创性框架,专注于大规模批量数据处理,具有高扩展性和容错性。然而,它在实时任务上表现不足。以下是一个简单的Hadoop MapReduce的WordCount程序示例,展示如何统计文本中单词出现次数。
50 0
|
18天前
|
分布式计算 Hadoop 大数据
探索大数据技术:Hadoop与Spark的奥秘之旅
【5月更文挑战第28天】本文探讨了大数据技术中的Hadoop和Spark,Hadoop作为分布式系统基础架构,通过HDFS和MapReduce处理大规模数据,适用于搜索引擎等场景。Spark是快速数据处理引擎,采用内存计算和DAG模型,适用于实时推荐和机器学习。两者各有优势,未来将继续发展和完善,助力大数据时代的发展。
|
20天前
|
资源调度 分布式计算 Hadoop
Hadoop Yarn 核心调优参数
这是一个关于测试集群环境的配置说明,包括3台服务器(master, slave1, slave2)运行CentOS 7.5,每台有4核CPU和4GB内存。集群使用Hadoop 3.1.3,JDK1.8。Yarn核心配置涉及调度器选择、ResourceManager线程数、节点检测、逻辑处理器使用、核心转换乘数、NodeManager内存和CPU设置,以及容器的内存和CPU限制。配置完成后,需要重启Hadoop并检查yarn配置。
|
20天前
|
SQL 分布式计算 资源调度
Hadoop Yarn 配置多队列的容量调度器
配置Hadoop多队列容量调度器,编辑`capacity-scheduler.xml`,新增`hive`队列,`default`队列占总内存40%,最大60%;`hive`队列占60%,最大80%。配置包括队列容量、用户权限和应用生存时间等,配置后使用`yarn rmadmin -refreshQueues`刷新队列,无需重启集群。多队列配置可在Yarn WEB界面查看。
|
26天前
|
存储 分布式计算 Hadoop
Spark编程实验一:Spark和Hadoop的安装使用
Spark编程实验一:Spark和Hadoop的安装使用
39 4