Spark环境搭建和使用方法

简介: Spark环境搭建和使用方法

(四)配置相关文件
1、配置Spark的classpath

先切换到 /usr/local/spark/conf 目录下,复制spark-env.sh.template重命名为spark-env.sh。

[root@bigdata local]# cd /usr/local/spark/conf
[root@bigdata conf]# cp spark-env.sh.template spark-env.sh
[root@bigdata conf]# ll
总用量 44
-rw-r--r-- 1 zhc zhc 996 10月 29 2018 docker.properties.template
-rw-r--r-- 1 zhc zhc 1105 10月 29 2018 fairscheduler.xml.template
-rw-r--r-- 1 zhc zhc 2025 10月 29 2018 log4j.properties.template
-rw-r--r-- 1 zhc zhc 7801 10月 29 2018 metrics.properties.template
-rw-r--r-- 1 zhc zhc 865 10月 29 2018 slaves.template
-rw-r--r-- 1 zhc zhc 1292 10月 29 2018 spark-defaults.conf.template
-rwxr-xr-x 1 root root 4221 12月 13 20:23 spark-env.sh
-rwxr-xr-x 1 zhc zhc 4221 10月 29 2018 spark-env.sh.template
[root@bigdata conf]# vi spark-env.sh
将如下内容加到spark-env.sh文件的第一行。

export SPARK_DIST_CLASSPATH=$(/usr/local/servers/hadoop/bin/hadoop classpath)
实现了Spark和Hadoop的交互。

2、配置 /etc/profile 文件

将如下内容添加到 /etc/profile 文件最后,并使其生效。

[root@bigdata conf]# vi /etc/profile
[root@bigdata conf]# source /etc/profile
export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH
export PYSPARK_PYTHON=python3
export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$PATH
如下图所示。

相关文章
|
分布式计算 Java Hadoop
Spark环境搭建和使用方法
Spark环境搭建和使用方法
|
分布式计算 Hadoop Scala
Spark【环境搭建 01】spark-3.0.0-without 单机版(安装+配置+测试案例)
【4月更文挑战第13天】Spark【环境搭建 01】spark-3.0.0-without 单机版(安装+配置+测试案例)
810 0
|
分布式计算 Ubuntu Java
Spark环境搭建与使用
Spark环境搭建与使用
195 0
|
分布式计算 监控 Oracle
Spark Standalone环境搭建及测试
Spark Standalone环境搭建及测试
364 0
|
分布式计算 Java Scala
Spark Local环境搭建及测试
Spark Local环境搭建及测试
345 0
|
SQL 分布式计算 NoSQL
Spark 操作 kudu --环境搭建 &amp ;创建表操作 | 学习笔记
快速学习 Spark 操作 kudu --环境搭建 &amp ;创建表操作
626 0
Spark 操作 kudu --环境搭建 &amp ;创建表操作 | 学习笔记
|
分布式计算 Java 大数据
Spark 环境搭建_下载和解压 Spark 安装包|学习笔记
快速学习 Spark 环境搭建_下载和解压 Spark 安装包
Spark 环境搭建_下载和解压 Spark 安装包|学习笔记
|
存储 分布式计算 资源调度
Spark集群环境搭建(standalone模式)
Spark集群环境搭建(standalone模式)
|
存储 分布式计算 资源调度
Spark本地环境搭建(local模式)
Spark本地环境搭建(local模式)
|
10月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
497 0