1、官网下载 3.2.1版本
链接:Downloads | Apache Spark
2、将文件上传至服务器解压,并对其dev下 make-distribution.sh做配置
tar -zxvf spark-3.2.1.tgz
进入到 spark-3.2.1目录下的dev目录
3、对文件 make-distribution.sh 进行配置
vim make-distribution.sh将版本信息注释掉自己指定,如下
4、指定scala版本
[root@g7-8x-bigdata0 dev] ./change-scala-version.sh 2.12
5、进行编译
[root@g7-8x-bigdata0 dev] ./dev/make-distribution.sh --name 3.2.1-hadoop3.2.1 --tgz -Phive -Phive-thriftserver -Pyarn -Dhadoop.version=3.2.1 -Dscala.version=2.12.15
注意:命令中对应兼容的hadoop和scala版本号一定要写对哇!
6、编译成功
出现success即可
编译完以后进入到目录下可以看到编译好的jar包
7、编译遇到的问题
1)编译所需依赖包下载慢
exec: curl --silent --show-error -L https://downloads.lightbend.com/scala/。。。。
解决办法:
在linux 配置 maven,并且maven镜像要使用阿里云镜像,并在 spark家目录下dev下文件make-distribution.sh如下处 指定maven路径,如下:
2)编译时提示内存不足
Java HotSpot(TM) 64-Bit Server VM warning: CodeCache is full. Compiler has been disabled
解决办法:
指定的maven内存—调大
在配置的环境变量中加入:
export MAVEN_OPTS="-Xms1024m -Xmx1024m -Xss1m"
然后source /etc/profile !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!