Spark参数配置说明

简介: 1  修改$SPARK_HOME/conf目录下的spark-defaults.conf文件 添加以下配置项 spark.sql.hive.convertMetastoreParquet       false hive.exec.compress.output     false 如果spark.sql.hive.convertMetastoreParquet不设置为false,前台清单预览看到的内容为乱码。

1  修改$SPARK_HOME/conf目录下的spark-defaults.conf文件

添加以下配置项

spark.sql.hive.convertMetastoreParquet       false

hive.exec.compress.output     false

如果spark.sql.hive.convertMetastoreParquet不设置为false,前台清单预览看到的内容为乱码。

由于parquet格式的文件内置了压缩,故输出结果不需要进行压缩,如果设置为压缩,清单下载功能异常。

2 修改$SPARK_HOME/conf目录下spark-env.sh文件,设置以下参数:

SPARK_EXECUTOR_INSTANCES=11

SPARK_EXECUTOR_CORES=2

SPARK_EXECUTOR_MEMORY=1G

SPARK_DRIVER_MEMORY=3G

根据需要配置,如果设置刚好满足所有内存,则没有多余的内存供其他task任务的执行

2.1 参数SPARK_EXECUTOR_INSTANCES

该参数决定了yarn集群中,最多能够同时启动的EXECUTOR的实例个数。Yarn中实际能够启动的最大Executors的数量会小于等于该值。如果不能确定最大能够启动的Executors数量,建议将该值先设置的足够大。(就是设置尽量大)

2.2 SPARK_EXECUTOR_CORES  该参数为设置每个EXECUTOR能够使用的CPU core的数量。

Yarn集群能够最多并行的Task数据为SPARK_EXECUTOR_INSTANCES乘        以SPARK_EXECUTOR_CORES一般设置为2

 也就是说如果spark_executor_instances=11 则最多并行的Task数为22

2.3 SPARK_EXECUTOR_MEMORY

该参数设置的是每个EXECUTOR分配的内存的数量。需要注意的是,该内存数量是SPARK_EXECUTOR_CORES中设置的内核数共用的内存数量。

例如上面示例中,就是2核cpu公用1G内存。

2.4 SPARK_DRIVER_MEMORY

该参数设置的是DRIVER分配的内存的大小。也就是执行start-thriftserver.sh机器上分配给thriftserver的内存大小。

 

3 yarn.nodemanager.resource.memory-mb

$HADOOP_HOME/etc/hadoop目录下的yarn-site.xml文件中,参数yarn.nodemanager.resource.memory-mb配置了每台机器yarn能够使用的物理内存大小,单位是MB。

如果发现集群内内存使用量明显比屋里内存小,可以修改该参数

4 spark.yarn.executor.memoryOverhead

该参数指定了每个executor在分配的内存之外,能够额外获得的内存的大小,默认是7%

目录
相关文章
|
4月前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之如何引用在spark jar中引用密文的空间参数
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
7月前
|
SQL 分布式计算 大数据
MaxCompute操作报错合集之spark3.1.1通过resource目录下的conf文件配置,报错如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
7月前
|
分布式计算 Scala Spark
Spark参数解析之MasterArguments
Spark参数解析之MasterArguments
43 0
|
7月前
|
分布式计算 Hadoop Scala
Spark【环境搭建 01】spark-3.0.0-without 单机版(安装+配置+测试案例)
【4月更文挑战第13天】Spark【环境搭建 01】spark-3.0.0-without 单机版(安装+配置+测试案例)
281 0
|
分布式计算 Spark
Spark重要参数详解
Spark重要参数详解
111 0
|
分布式计算 大数据 Shell
Spark 环境搭建_配置 HistoryServer|学习笔记
快速学习 Spark 环境搭建_配置 HistoryServer
Spark 环境搭建_配置 HistoryServer|学习笔记
|
分布式计算 Java Scala
配置spark,并在idea中搭建项目
配置spark,并在idea中搭建项目
148 0
|
SQL 分布式计算 Hadoop
配置Hive使用Spark执行引擎
在Hive中,可以通过配置来指定使用不同的执行引擎。Hive执行引擎包括:默认MR、tez、spark。
289 0
|
SQL 分布式计算 Hadoop
Spark SQL CLI配置
Spark SQL CLI配置
Spark SQL CLI配置
|
分布式计算 大数据 调度
Spark 集群搭建_高可用配置|学习笔记
快速学习 Spark 集群搭建_高可用配置
Spark 集群搭建_高可用配置|学习笔记
下一篇
DataWorks