Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装

简介:

【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取

1编译Spark

Spark可以通过SBTMaven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具,两种方式均需要在联网下进行,通过比较发现SBT编译速度较慢(原因有可能是1、时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 2maven下载大文件是多线程进行,而SBT是单进程),Maven编译成功前后花了34个小时。

1.1 编译SparkSBT

1.1.1 安装git并编译安装

1.  从如下地址下载git安装包

http://www.onlinedown.net/softdown/169333_2.htm

https://www.kernel.org/pub/software/scm/git/

如果linuxCentOS操作系统可以通过:yum install git直接进行安装

clip_image002

由于从https获取内容,需要安装curl-devel,可以从如下地址获取

http://rpmfind.net/linux/rpm2html/search.php?query=curl-devel

如果linuxCentOS操作系统可以通过:yum install curl-devel直接进行安装

clip_image004

2. 上传git并解压缩

git-1.7.6.tar.gz安装包上传到/home/hadoop/upload目录中,解压缩然后放到/app目录下

$cd /home/hadoop/upload/

$tar -xzf git-1.7.6.tar.gz

$mv git-1.7.6 /app

$ll /app

clip_image006

3. 编译安装git

root用户进行在git所在路径编译安装git

#yum install curl-devel

#cd /app/git-1.7.6 

#./configure

#make

#make install

clip_image008

clip_image010

clip_image012

clip_image014

4. git加入到PATH路径中

打开/etc/profilegit所在路径加入到PATH参数中

export GIT_HOME=/app/git-1.7.6

export PATH=$PATH:$JAVA_HOME/bin:$MAVEN_HOME/bin:$GIT_HOME/bin

clip_image016

重新登录或者使用source /etc/profile使参数生效,然后使用git命令查看配置是否正确

clip_image018

1.1.2 下载Spark源代码并上传

1. 可以从如下地址下载到spark源代码:

http://spark.apache.org/downloads.html

http://d3kbcqa49mib13.cloudfront.net/spark-1.1.0.tgz

git clone https://github.com/apache/spark.git

把下载好的spark-1.1.0.tgz源代码包使用1.1.3.1介绍的工具上传到/home/hadoop/upload 目录下

clip_image020

2. 在主节点上解压缩

$cd /home/hadoop/upload/

$tar -xzf spark-1.1.0.tgz

clip_image022

3. spark-1.1.0改名并移动到/app/complied目录下

$mv spark-1.1.0 /app/complied/spark-1.1.0-sbt

$ls /app/complied

clip_image024

1.1.3 编译代码

编译spark源代码的时候,需要从网上下载依赖包,所以整个编译过程机器必须保证在联网状态。编译执行如下脚本:

$cd /app/complied/spark-1.1.0-sbt

$sbt/sbt assembly -Pyarn -Phadoop-2.2 -Pspark-ganglia-lgpl -Pkinesis-asl -Phive

clip_image026

clip_image028

clip_image030

整个编译过程编译了约十几个任务,重新编译N次,需要几个甚至十几个小时才能编译完成(主要看下载依赖包的速度)。

1.2 编译SparkMaven

1.2.1 安装Maven并配置参数

在编译前最好安装3.0以上版本的Maven,在/etc/profile配置文件中加入如下设置:

export MAVEN_HOME=/app/apache-maven-3.0.5

export PATH=$PATH:$JAVA_HOME/bin:$MAVEN_HOME/bin:$GIT_HOME/bin

clip_image032

1.2.2 下载Spark源代码并上传

1. 可以从如下地址下载到spark源代码:

http://spark.apache.org/downloads.html

http://d3kbcqa49mib13.cloudfront.net/spark-1.1.0.tgz

git clone https://github.com/apache/spark.git

把下载好的spark-1.1.0.tgz源代码包使用1.1.3.1介绍的工具上传到/home/hadoop/upload 目录下

clip_image020[1]

2. 在主节点上解压缩

$cd /home/hadoop/upload/

$tar -xzf spark-1.1.0.tgz

clip_image022[1]

3. spark-1.1.0改名并移动到/app/complied目录下

$mv spark-1.1.0 /app/complied/spark-1.1.0-mvn

$ls /app/complied

clip_image034

1.2.3 编译代码

编译spark源代码的时候,需要从网上下载依赖包,所以整个编译过程机器必须保证在联网状态。编译执行如下脚本:

$cd /app/complied/spark-1.1.0-mvn

$export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

$mvn -Pyarn -Phadoop-2.2 -Pspark-ganglia-lgpl -Pkinesis-asl -Phive -DskipTests clean package

clip_image036

整个编译过程编译了约24个任务,整个过程耗时1小时45分钟。

clip_image038

1.3 生成Spark部署包

Spark源码根目录下有一个生成部署包的脚本make-distribution.sh,可以通过执行如下命令进行打包 ./make-distribution.sh [--name] [--tgz] [--with-tachyon] <maven build options>

l  --name NAME--tgz 结合可以生成spark-$VERSION-bin-$NAME.tgz 的部署包,不加此参数时NAME hadoop 的版本号

l  --tgz在根目录下生成 spark-$VERSION-bin.tgz ,不加此参数时不生成tgz 文件,只生成/dist 目录

l  --with-tachyon  是否支持内存文件系统Tachyon ,不加此参数时不支持tachyon

clip_image040

例子:

1. 生成支持yarn hadoop2.2.0 hive 的部署包:

./make-distribution.sh --tgz --name 2.2.0 -Pyarn -Phadoop-2.2 -Phive

2. 生成支持yarn hadoop2.2.0 hive ganglia 的部署包:

./make-distribution.sh --tgz --name 2.2.0 -Pyarn -Phadoop-2.2 -Pspark-ganglia-lgpl -P hive

1.3.1 生成部署包

使用如下命令生成Spark部署包,由于该脚本默认在JDK1.6进行,在开始时会进行询问是否继续,只要选择Y即可

$cd /app/complied/spark-1.1.0-mvn/

$./make-distribution.sh --tgz --name 2.2.0 -Pyarn -Phadoop-2.2 -Pspark-ganglia-lgpl -P hive

clip_image042

clip_image044

 

clip_image046

生成Spark部署包编译了约24个任务,用时大概1小时38分钟。

 

1.3.2 查看生成结果

生成在部署包位于根目录下,文件名类似于spark-1.1.0-bin-2.2.0.tgz

clip_image048

2安装Spark

2.1 上传并解压Spark安装包

1.我们使用上一步骤编译好的spark-1.1.0-bin-2.2.0.tgz文件作为安装包(也可以从网上下载native文件夹或者打包好的64hadoop安装包),使用"Spark编译与部署(上)"1. 3.1介绍的工具上传到/home/hadoop/upload 目录下

clip_image050

2. 在主节点上解压缩

$cd /home/hadoop/upload/

$tar -xzf spark-1.1.0-bin-2.2.0.tgz

clip_image052

3. spark改名并移动到/app/hadoop目录下

$mv spark-1.1.0-bin-2.2.0 /app/hadoop/spark-1.1.0

$ll /app/hadoop

clip_image054

2.2 配置/etc/profile

1. 打开配置文件/etc/profile

$sudo vi /etc/profile

2.     定义SPARK_HOME并把spark路径加入到PATH参数中

SPARK_HOME=/app/hadoop/spark-1.1.0

PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

2.3 配置conf/slaves

1. 打开配置文件conf/slaves

$cd /app/hadoop/spark-1.1.0/conf

$sudo vi slaves

clip_image056

2. 加入slave配置节点

hadoop1

hadoop2

hadoop3

clip_image058

2.4 配置conf/spark-env.sh

1. 打开配置文件conf/spark-env.sh

$cd /app/hadoop/spark-1.1.0/conf

$cp spark-env.sh.template spark-env.sh

$sudo vi spark-env.sh

clip_image060

2. 加入Spark环境配置内容,设置hadoop1Master节点

export SPARK_MASTER_IP=hadoop1

export SPARK_MASTER_PORT=7077

export SPARK_WORKER_CORES=1

export SPARK_WORKER_INSTANCES=1

export SPARK_WORKER_MEMORY=512M

clip_image062

2.5 向各节点分发Spark程序

1. 进入hadoop1机器/app/hadoop目录,使用如下命令把spark文件夹复制到hadoop2hadoop3机器

$cd /app/hadoop

$scp -r spark-1.1.0 hadoop@hadoop2:/app/hadoop/

$scp -r spark-1.1.0 hadoop@hadoop3:/app/hadoop/

clip_image064

clip_image066

2. 在从节点查看是否复制成功

clip_image068

2.6 启动Spark

$cd /app/hadoop/spark-1.1.0/sbin

$./start-all.sh

clip_image070

2.7 验证启动

此时在hadoop1上面运行的进程有:WorkerMaster

clip_image072

此时在hadoop2hadoop3上面运行的进程有只有Worker

 clip_image074

通过 netstat -nlt 命令查看hadoop1节点网络情况

clip_image076

在浏览器中输入 http://hadoop1:8080(需要注意的是要在网络设置中把hadoop*除外,否则会到外网DNS解析,出现无法访问的情况) 既可以进入Spark集群状态页面

clip_image078

2.8 验证客户端连接

进入hadoop1节点,进入sparkbin目录,使用spark-shell连接集群

$cd /app/hadoop/spark-1.1.0/bin

$spark-shell --master spark://hadoop1:7077 --executor-memory 500m

clip_image080

在命令中只指定了内存大小并没有指定核数,所以该客户端将占用该集群所有核并在每个节点分配500M内存

clip_image082

clip_image084

3Spark测试

3.1 使用Spark-shell测试

这里我们测试一下在Hadoop中大家都知道的WordCout程序,在MapReduce实现WordCout需要MapReduceJob三个部分,而在Spark中甚至一行就能够搞定。下面就看一下是如何实现的:

3.1.1 启动HDFS

$cd /app/hadoop/hadoop-2.2.0/sbin

$./start-dfs.sh

clip_image086

通过jps观察启动情况,在hadoop1上面运行的进程有:NameNodeSecondaryNameNodeDataNode

clip_image088

hadoop2hadoop3上面运行的进程有:NameNodeDataNode

clip_image090

3.1.2 上传数据到HDFS

hadoop配置文件core-site.xml文件作为测试文件上传到HDFS

$hadoop fs -mkdir -p /user/hadoop/testdata

$hadoop fs -put /app/hadoop/hadoop-2.2.0/etc/hadoop/core-site.xml /user/hadoop/testdata

clip_image092

3.1.3 启动Spark

$cd /app/hadoop/spark-1.1.0/sbin

$./start-all.sh

clip_image094

3.1.4 启动Spark-shell

spark客户端(这里在hadoop1节点),使用spark-shell连接集群

$cd /app/hadoop/spark-1.1.0/bin

$./spark-shell --master spark://hadoop1:7077 --executor-memory 512m --driver-memory 500m

clip_image096

3.1.5 运行WordCount脚本

下面就是WordCount的执行脚本,该脚本是scala编写,以下为一行实现:

scala>sc.textFile("hdfs://hadoop1:9000/user/hadoop/testdata/core-site.xml").flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1)).take(10)

为了更好看到实现过程,下面将逐行进行实现:

scala>val rdd=sc.textFile("hdfs://hadoop1:9000/user/hadoop/testdata/core-site.xml")

scala>rdd.cache()

scala>val wordcount=rdd.flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_)

scala>wordcount.take(10)

scala>val wordsort=wordcount.map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1))

scala>wordsort.take(10)

clip_image098

clip_image100

clip_image102

clip_image104

词频统计结果如下:

Array[(String, Int)] = Array(("",100), (the,7), (</property>,6), (<property>,6), (under,3), (in,3), (License,3), (this,2), (-->,2), (file.,2))

3.1.6 观察运行情况

通过http://hadoop1:8080查看Spark运行情况,可以看到Spark3个节点,每个节点各为1个内核/512M内存,客户端分配3个核,每个核有512M内存。

clip_image106

通过点击客户端运行任务ID,可以看到该任务在hadoop2hadoop3节点上运行,在hadoop1上并没有运行,主要是由于hadoop1NameNodeSpark客户端造成内存占用过大造成

clip_image108

3.2 使用Spark-submit测试

Spark1.0.0开始,Spark提供了一个易用的应用程序部署工具bin/spark-submit,可以完成Spark应用程序在localStandaloneYARNMesos上的快捷部署。该工具语法及参数说明如下:

Usage: spark-submit [options] <app jar | python file> [app options]

Options:

  --master MASTER_URL          spark://host:port, mesos://host:port, yarn, or local.

  --deploy-mode DEPLOY_MODE  driver运行之处,client运行在本机,cluster运行在集群

  --class CLASS_NAME            应用程序包的要运行的class

  --name NAME                  应用程序名称

  --jars JARS                     用逗号隔开的driver本地jar包列表以及executor类路径

  --py-files PY_FILES              用逗号隔开的放置在Python应用程序

PYTHONPATH上的.zip, .egg, .py文件列表

  --files FILES                    用逗号隔开的要放置在每个executor工作目录的文件列表

  --properties-file FILE           设置应用程序属性的文件放置位置,默认是conf/spark-defaults.conf

  --driver-memory MEM         driver内存大小,默认512M

  --driver-java-options           driverjava选项

  --driver-library-path            driver的库路径Extra library path entries to pass to the driver

  --driver-class-path             driver的类路径,用--jars 添加的jar包会自动包含在类路径里

  --executor-memory MEM       executor内存大小,默认1G

 

 Spark standalone with cluster deploy mode only:

  --driver-cores NUM           driver使用内核数,默认为1

  --supervise                   如果设置了该参数,driver失败是会重启

 

 Spark standalone and Mesos only:

  --total-executor-cores NUM    executor使用的总核数

 

 YARN-only:

  --executor-cores NUM         每个executor使用的内核数,默认为1

  --queue QUEUE_NAME        提交应用程序给哪个YARN的队列,默认是default队列

  --num-executors NUM        启动的executor数量,默认是2

  --archives ARCHIVES          被每个executor提取到工作目录的档案列表,用逗号隔开

3.2.1 运行脚本1

该脚本为Spark自带例子,在该例子中个计算了圆周率π的值,以下为执行脚本:

$cd /app/hadoop/spark-1.1.0/bin

$./spark-submit --master spark://hadoop1:7077 --class org.apache.spark.examples.SparkPi --executor-memory 512m ../lib/spark-examples-1.1.0-hadoop2.2.0.jar 200

参数说明(详细可以参考上面的参数说明):

l  --master Master所在地址,可以有MesosSparkYARNLocal四种,在这里为Spark Standalone集群,地址为spark://hadoop1:7077

l  --class应用程序调用的类名,这里为org.apache.spark.examples.SparkPi

l  --executor-memory 每个executor所分配的内存大小,这里为512M

l  执行jar包 这里是../lib/spark-examples-1.1.0-hadoop2.2.0.jar

l  分片数目 这里数目为200

clip_image110

clip_image112

3.2.2 观察运行情况

通过观察Spark集群有3Worker节点和正在运行的1个应用程序,每个Worker节点为1内核/512M内存。由于没有指定应用程序所占内核数目,则该应用程序占用该集群所有3个内核,并且每个节点分配512M内存。

clip_image114

根据每个节点负载情况,每个节点运行executor并不相同,其中hadoop1executor数目为0。而hadoop3执行executor数为10个,其中5EXITED状态,5KILLED状态。

clip_image116

3.2.3 运行脚本2

该脚本为Spark自带例子,在该例子中个计算了圆周率π的值,区别脚本1这里指定了每个executor内核数据,以下为执行脚本:

$cd /app/hadoop/spark-1.1.0/bin

$./spark-submit --master spark://hadoop1:7077 --class org.apache.spark.examples.SparkPi --executor-memory 512m --total-executor-cores 2 ../lib/spark-examples-1.1.0-hadoop2.2.0.jar 200

参数说明(详细可以参考上面的参数说明):

l  --master Master所在地址,可以有MesosSparkYARNLocal四种,在这里为Spark Standalone集群,地址为spark://hadoop1:7077

l  --class应用程序调用的类名,这里为org.apache.spark.examples.SparkPi

l  --executor-memory 每个executor所分配的内存大小,这里为512M

l  --total-executor-cores 2 每个executor分配的内核数

l  执行jar包 这里是../lib/spark-examples-1.1.0-hadoop2.2.0.jar

l  分片数目 这里数目为200

 

3.2.4 观察运行情况

通过观察Spark集群有3Worker节点和正在运行的1个应用程序,每个Worker节点为1内核/512M内存。由于指定应用程序所占内核数目为2,则该应用程序使用该集群所有2个内核。

clip_image118

clip_image120











本文转自shishanyuan博客园博客,原文链接: http://www.cnblogs.com/shishanyuan/p/4701656.html   ,如需转载请自行联系原作者






相关文章
|
10天前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
38 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
62 2
|
3月前
|
分布式计算 资源调度 大数据
【决战大数据之巅】:Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决!
【8月更文挑战第7天】随着大数据需求的增长,Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务,易于设置,适用于小规模或独立部署;而 YARN 作为 Hadoop 的资源管理系统,支持资源的统一管理和调度,更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。
237 3
|
1月前
|
分布式计算 大数据 Java
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
19 1
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
|
3月前
|
SQL 分布式计算 监控
|
4月前
|
SQL 分布式计算 监控
在hue上部署spark作业
7月更文挑战第11天
128 3
|
4月前
|
分布式计算 Apache Spark
|
5月前
|
分布式计算 监控 大数据
spark实战:实现分区内求最大值,分区间求和以及获取日志文件固定日期的请求路径
spark实战:实现分区内求最大值,分区间求和以及获取日志文件固定日期的请求路径
|
5月前
|
分布式计算 Shell Linux
Spark-集群安装、部署、启动、测试(1.6.3)稳定版
Spark-集群安装、部署、启动、测试(1.6.3)稳定版
62 0
|
6月前
|
分布式计算 Java Hadoop
Spark3.3.0源码编译补充篇-抓狂的证书问题
Spark3.3.0源码编译补充篇-抓狂的证书问题
42 0
下一篇
无影云桌面