深入理解Spark:核心思想与源码分析. 3.5 Hadoop相关配置及Executor环境变量

简介:

3.5 Hadoop相关配置及Executor环境变量

3.5.1 Hadoop相关配置信息

默认情况下,Spark使用HDFS作为分布式文件系统,所以需要获取Hadoop相关配置信息的代码如下。

val hadoopConfiguration = SparkHadoopUtil.get.newConfiguration(conf)

获取的配置信息包括:

将Amazon S3文件系统的AccessKeyId和SecretAccessKey加载到Hadoop的Configuration;

将SparkConf中所有以spark.hadoop.开头的属性都复制到Hadoop的Configuration;

将SparkConf的属性spark.buffer.size复制为Hadoop的Configuration的配置io.file.buffer.size。

如果指定了SPARK_YARN_MODE属性,则会使用YarnSparkHadoopUtil,否则默认为SparkHadoopUtil。

3.5.2 Executor环境变量

对Executor的环境变量的处理,参见代码清单3-28。executorEnvs 包含的环境变量将会在7.2.2节中介绍的注册应用的过程中发送给Master,Master给Worker发送调度后,Worker最终使用executorEnvs提供的信息启动Executor。可以通过配置spark.executor.memory指定Executor占用的内存大小,也可以配置系统变量SPARK_EXECUTOR_MEMORY或者SPARK_MEM对其大小进行设置。

代码清单3-28 Executor环境变量的处理

private[spark] val executorMemory = conf.getOption("spark.executor.memory")

        .orElse(Option(System.getenv("SPARK_EXECUTOR_MEMORY")))

        .orElse(Option(System.getenv("SPARK_MEM")).map(warnSparkMem))

        .map(Utils.memoryStringToMb)

        .getOrElse(512)

 

    // Environment variables to pass to our executors.

    private[spark] val executorEnvs = HashMap[String, String]()

 

    for { (envKey, propKey) <- Seq(("SPARK_TESTING", "spark.testing"))

        value <- Option(System.getenv(envKey)).orElse(Option(System.getProperty (propKey)))} {

        executorEnvs(envKey) = value

    }

    Option(System.getenv("SPARK_PREPEND_CLASSES")).foreach { v =>

        executorEnvs("SPARK_PREPEND_CLASSES") = v

    }

    // The Mesos scheduler backend relies on this environment variable to set executor memory.

  executorEnvs("SPARK_EXECUTOR_MEMORY") = executorMemory + "m"

    executorEnvs ++= conf.getExecutorEnv

 

    // Set SPARK_USER for user who is running SparkContext.

    val sparkUser = Option {

        Option(System.getenv("SPARK_USER")).getOrElse(System.getProperty("user.name"))

    }.getOrElse {

        SparkContext.SPARK_UNKNOWN_USER

    }

    executorEnvs("SPARK_USER") = sparkUser

相关文章
|
16天前
|
分布式计算 Hadoop Devops
Hadoop集群配置https实战案例
本文提供了一个实战案例,详细介绍了如何在Hadoop集群中配置HTTPS,包括生成私钥和证书文件、配置keystore和truststore、修改hdfs-site.xml和ssl-client.xml文件,以及重启Hadoop集群的步骤,并提供了一些常见问题的故障排除方法。
26 3
Hadoop集群配置https实战案例
|
19天前
|
XML 分布式计算 监控
详细指南:在Hadoop中配置Oozie作业
【8月更文挑战第31天】
25 0
|
1月前
|
分布式计算 Hadoop 大数据
Spark 与 Hadoop 的大数据之战:一场惊心动魄的技术较量,决定数据处理的霸权归属!
【8月更文挑战第7天】无论是 Spark 的高效内存计算,还是 Hadoop 的大规模数据存储和处理能力,它们都为大数据的发展做出了重要贡献。
62 2
|
22天前
|
存储 分布式计算 资源调度
Hadoop生态系统概览:从HDFS到Spark
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它由多个组件构成,旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件,包括HDFS、MapReduce、YARN,并探讨它们如何与现代大数据处理工具如Spark集成。
48 0
|
2月前
|
分布式计算 Hadoop 大数据
Hadoop与Spark在大数据处理中的对比
【7月更文挑战第30天】Hadoop和Spark在大数据处理中各有优势,选择哪个框架取决于具体的应用场景和需求。Hadoop适合处理大规模数据的离线分析,而Spark则更适合需要快速响应和迭代计算的应用场景。在实际应用中,可以根据数据处理的需求、系统的可扩展性、成本效益等因素综合考虑,选择适合的框架进行大数据处理。
|
1月前
|
分布式计算 Hadoop 大数据
大数据处理框架在零售业的应用:Apache Hadoop与Apache Spark
【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持
36 0
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop软件与配置问题
【7月更文挑战第14天】
32 3
|
2月前
|
分布式计算 Hadoop
Hadoop配置作业使用Combiner
【7月更文挑战第7天】
25 4
|
1月前
|
存储 分布式计算 Hadoop

相关实验场景

更多