1、Spark概述

1.1 什么是Spark

Spark是一个基于内存的快速、通用、可扩展的大数据分析计算引擎。

spark基于内存的快速、通用、可扩展的大数据分析计算引擎,是基于内存的，通过DAG（有向无环图）执行引擎支持无环数据流

弹性分布式数据集(RDD），scale语言中集合List(列表)，分布式列表，存储海量数据的
spark处理数据时，将数据封装到集合RDD,RDD中有很多分区partition,每个分区数据被一个Task处理，对于spark和flink框架来说，每个task任务以线程Thrad方式运行，每个maprdduce中每个task以进程process方式运行，线程运行的速度快于进程
sparkcore离线批处理
sparkSQL交互式分析
sparkStream和structedStreamign流式处理和图计算
sparkGraphX图形

1.2 Hadoop和Spark历史

Hadoop的Yarn框架比Spark框架诞生的晚，所以Spark自己也设计了一套资源调度框架。

1.3 Hadoop和Spark框架对比

1.4 Spark内置模块

1.5 Spark特点

1、快：与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效地DAG执行引擎，可以通过基于内存来高效处理数据流。计算的中间结果是存在于内存中的。

2、易用：Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的Shell，可以非常方便的在这些Shell中使用Spark集群来验证解决问题的办法。

3、通用：Spark提供了统一的解决方案。Spark可以用于交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark Lib）和图计算（GraphX）。这些不同类型的处理都可以在同一个应用中无缝使用、减少了开发和维护的人力成本和部署平台的物力成本。

4、兼容性：Spark可以非常方便地与其他的开源产品进行融合。比如，Spark可以使用Hadoop的Yarn好Apache Mesos作为它的资源管理和调度器，并且可以处理所以Hadoop支持的数据，包括HDFS、HBase等。这对于已经部署Hadoop集群的用户特别重要，因为不需要做任何数据迁移就可以使用Spark强大的处理能力。

快速上手-WordCount-Spark环境

package org.example

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object wordCount {
  def main(args: Array[String]): Unit = {
    // 2.创建Spark运行配置对象
    val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")


    // 1.创建Spark上下文环境对象（连接对象）
    //    val context = new SparkContext(wordCount)
    val sc: SparkContext = new SparkContext(sparkConf)
    // 读取文件数据,获取一行一行数据
    val lines: RDD[String] = sc.textFile("F:\\sparkloo\\input")
    // 将文件中的数据进行分词,扁平化
    //    val word: RDD[String] = lines.flatMap(words => words.split(" "))
    val words: RDD[String] = lines.flatMap(_.split(" "))
    //3.将数据根据单词进行分组，便于统计
    //(hello,hello,hello),(world,world)
    val wordGroup: RDD[(String, Iterable[String])] = words.groupBy(word => word)
    //4.对分组后的数据进行转化
    //(hello,3) (world,2)
    //    val wordTocout: RDD[(String, Int)] = wordGroup.map(kv => {
    //      (kv._1, kv._2.size)
    //    })
    var wordTocout = wordGroup.map {
      case (word, list) => {
        (word, list.size)
      }
    }
    //5.将转化结果采集到控制台打印
    val array: Array[(String, Int)] = wordTocout.collect()
    array.foreach(println)
    sc.stop()
  }

}

package com.atguigu

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object wordCount3 {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("wordCount3")
    val sc = new SparkContext(conf)
    val lines: RDD[String] = sc.textFile("F:\\SparkCore代码\\Spark-core\\input")
    val words: RDD[String] = lines.flatMap(x => {
      x.split(" ")
    })
    val wordToOne: RDD[(String, Int)] = words.map(
      word => {
        (word, 1)
      }
    )
    //TODO Spark框架提供了更多的功能，可以将分组和聚合使用一个方法实现
    //reduceByKey:相同的key的数据，可以对value进行聚合
//    val wordToCount: RDD[(String, Int)] = wordToOne.reduceByKey((x, y) => {
//      x + y
//    })
    val value: RDD[(String, Int)] = wordToOne.reduceByKey(_ + _)
    val array: Array[(String, Int)] = value.collect()
    array.foreach(println)
    sc.stop()

  }

}

2、Spark 运行模式

部署Spark集群大体上分为两种模式：单机模式与集群模式

（1）Local模式：在本地部署单个Spark服务

（2）Standalone模式：Spark自带的任务调度模式。（国内常用）独立部署模式

（3）YARN模式： Spark使用Hadoop的YARN组件进行资源与任务调度。（国内最常用）

（4）Mesos模式： Spark使用Mesos平台进行资源与任务的调度。（国内很少用）

2.1 Spark安装地址

1）官网地址：http://spark.apache.org/

2）文档查看地址：https://spark.apache.org/docs/3.3.0/

3）下载地址：https://spark.apache.org/downloads.html https://archive.apache.org/dist/spark/

2.2 Local模式

所谓的Local模式，就是不需要其他任何节点资源就可以在本地执行Spark代码的环境，一般用于教学，调试，演示等，之前在IDEA中运行代码的环境我们称之为开发环境，不太一样。

3.1.1 解压缩文件

将spark-3.0.0-bin-hadoop3.2.tgz文件上传到Linux并解压缩，放置在指定位置，路径中不要包含中文或空格，课件后续如果涉及到解压缩操作，不再强调。

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module

cd /opt/module

mv spark-3.0.0-bin-hadoop3.2 spark-local

3.1.2 启动Local环境

1) 进入解压缩后的路径，执行如下指令

bin/spark-shell

2) 启动成功后，可以输入网址进行Web UI监控页面访问

http://虚拟机地址:4040

3.1.3 命令行工具

在解压缩文件夹下的data目录中，添加word.txt文件。在命令行工具中执行如下代码指令（和IDEA中代码简化版一致）

sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

3.1.4 退出本地模式

按键Ctrl+C或输入Scala指令

:quit

3.1.5 提交应用

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[2] \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

1) --class表示要执行程序的主类，此处可以更换为咱们自己写的应用程序

2) --master local[2] 部署模式，默认为本地模式，数字表示分配的虚拟CPU核数量

3) spark-examples_2.12-3.0.0.jar 运行的应用类所在的jar包，实际使用时，可以设定为咱们自己打的jar包

4) 数字10表示程序的入口参数，用于设定当前应用的任务数量

Standalone模式

local本地模式毕竟只是用来进行练习演示的，真实工作中还是要将应用提交到对应的集群中去执行，这里我们来看看只使用Spark自身节点运行的集群模式，也就是我们所谓的独立部署（Standalone）模式。Spark的Standalone模式体现了经典的master-slave模式。

集群规划:

	Linux1	Linux2	Linux3
Spark	Worker Master	Worker	Worker

3.2.1 解压缩文件

将spark-3.0.0-bin-hadoop3.2.tgz文件上传到Linux并解压缩在指定位置

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module

cd /opt/module

mv spark-3.0.0-bin-hadoop3.2 spark-standalone

3.2.2 修改配置文件

1) 进入解压缩后路径的conf目录，修改slaves.template文件名为slaves

mv slaves.template slaves

2) 修改slaves文件，添加worker节点

linux1

linux2

linux3

3) 修改spark-env.sh.template文件名为spark-env.sh

mv spark-env.sh.template spark-env.sh

4) 修改spark-env.sh文件，添加JAVA_HOME环境变量和集群对应的master节点

export JAVA_HOME=/opt/module/jdk1.8.0_144

SPARK_MASTER_HOST=linux1

SPARK_MASTER_PORT=7077

注意：7077端口，相当于hadoop3内部通信的8020端口，此处的端口需要确认自己的Hadoop配置

5) 分发spark-standalone目录

xsync spark-standalone

3.2.3 启动集群

1) 执行脚本命令：

sbin/start-all.sh

2) 查看三台服务器运行进程

================linux1================

3330 Jps

3238 Worker

3163 Master

================linux2================

2966 Jps

2908 Worker

================linux3================

2978 Worker

3036 Jps

3) 查看Master资源监控Web UI界面: http://linux1:8080

3.2.4 提交应用

bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master spark://linux1:7077 \

./examples/jars/spark-examples_2.12-3.0.0.jar \

1) --class表示要执行程序的主类

2) --master spark://linux1:7077 独立部署模式，连接到Spark集群

3) spark-examples_2.12-3.0.0.jar 运行类所在的jar包

4) 数字10表示程序的入口参数，用于设定当前应用的任务数量

执行任务时，会产生多个Java进程

执行任务时，默认采用服务器集群节点的总核数，每个节点内存1024M。

3.2.5 提交参数说明

在提交应用中，一般会同时一些提交参数

bin/spark-submit \
--class <main-class>
--master <master-url> \
... # other options
<application-jar> \
[application-arguments]

参数	解释	可选值举例
--class	Spark程序中包含主函数的类
--master	Spark程序运行的模式(环境)	模式：local[*]、spark://linux1:7077、 Yarn
--executor-memory 1G	指定每个executor可用内存为1G	符合集群内存配置即可，具体情况具体分析。
--total-executor-cores 2	指定所有executor使用的cpu核数为2个
--executor-cores	指定每个executor使用的cpu核数
application-jar	打包好的应用jar，包含依赖。这个URL在集群中全局可见。比如hdfs:// 共享存储系统，如果是file:// path，那么所有的节点的path都包含同样的jar
application-arguments	传给main()方法的参数

配置历史服务

由于spark-shell停止掉后，集群监控linux1:4040页面就看不到历史任务的运行情况，所以开发时都配置历史服务器记录任务运行情况。

1) 修改spark-defaults.conf.template文件名为spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf

2) 修改spark-default.conf文件，配置日志存储路径

spark.eventLog.enabled true

spark.eventLog.dir hdfs://linux1:8020/directory

注意：需要启动hadoop集群，HDFS上的directory目录需要提前存在。

sbin/start-dfs.sh

hadoop fs -mkdir /directory

3) 修改spark-env.sh文件, 添加日志配置

export SPARK_HISTORY_OPTS="

-Dspark.history.ui.port=18080

-Dspark.history.fs.logDirectory=hdfs://linux1:8020/directory

-Dspark.history.retainedApplications=30"

l 参数1含义：WEB UI访问的端口号为18080

l 参数2含义：指定历史服务器日志存储路径

l 参数3含义：指定保存Application历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数。

4) 分发配置文件

xsync conf

5) 重新启动集群和历史服务

sbin/start-all.sh

sbin/start-history-server.sh

6) 重新执行任务

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://linux1:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

1) 查看历史服务：http://linux1:18080

配置高可用（HA）

所谓的高可用是因为当前集群中的Master节点只有一个，所以会存在单点故障问题。所以为了解决单点故障问题，需要在集群中配置多个Master节点，一旦处于活动状态的Master发生故障时，由备用Master提供服务，保证作业可以继续执行。这里的高可用一般采用Zookeeper设置

集群规划:

Linux1

Linux2

Linux3

Spark

Master

Zookeeper

Worker

Master

Zookeeper

Worker

Zookeeper

Worker

1) 停止集群

sbin/stop-all.sh

2) 启动Zookeeper

xstart zk

3) 修改spark-env.sh文件添加如下配置

注释如下内容：

#SPARK_MASTER_HOST=linux1

#SPARK_MASTER_PORT=7077

添加如下内容:

#Master监控页面默认访问端口为8080，但是可能会和Zookeeper冲突，所以改成8989，也可以自定义，访问UI监控页面时请注意

SPARK_MASTER_WEBUI_PORT=8989

export SPARK_DAEMON_JAVA_OPTS="

-Dspark.deploy.recoveryMode=ZOOKEEPER

-Dspark.deploy.zookeeper.url=linux1,linux2,linux3

-Dspark.deploy.zookeeper.dir=/spark"

4) 分发配置文件

xsync conf/

5) 启动集群

sbin/start-all.sh

1) 启动linux2的单独Master节点，此时linux2节点Master状态处于备用状态

[root@linux2 spark-standalone]# sbin/start-master.sh

1) 提交应用到高可用集群

bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master spark://linux1:7077,linux2:7077 \

./examples/jars/spark-examples_2.12-3.0.0.jar \

1) 停止linux1的Master资源监控进程

1) 查看linux2的Master 资源监控Web UI，稍等一段时间后，linux2节点的Master状态提升为活动状态

Yarn模式

独立部署（Standalone）模式由Spark自身提供计算资源，无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性，独立性非常强。但是你也要记住，Spark主要是计算框架，而不是资源调度框架，所以本身提供的资源调度并不是它的强项，所以还是和其他专业的资源调度框架集成会更靠谱一些。所以接下来我们来学习在强大的Yarn环境下Spark是如何工作的（其实是因为在国内工作中，Yarn使用的非常多）。

3.3.1 解压缩文件

将spark-3.0.0-bin-hadoop3.2.tgz文件上传到linux并解压缩，放置在指定位置。

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module

cd /opt/module

mv spark-3.0.0-bin-hadoop3.2 spark-yarn

3.3.2 修改配置文件

1) 修改hadoop配置文件/opt/module/hadoop/etc/hadoop/yarn-site.xml, 并分发

yarn.nodemanager.pmem-check-enabled

false

yarn.nodemanager.vmem-check-enabled

false

2) 修改conf/spark-env.sh，添加JAVA_HOME和YARN_CONF_DIR配置

mv spark-env.sh.template spark-env.sh

。。。

export JAVA_HOME=/opt/module/jdk1.8.0_144

YARN_CONF_DIR=/opt/module/hadoop/etc/hadoop

3.3.3 启动HDFS以及YARN集群

瞅啥呢，自己启动去！

3.3.4 提交应用

bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master yarn \

--deploy-mode cluster \

./examples/jars/spark-examples_2.12-3.0.0.jar \

配置历史服务器

1) 修改spark-defaults.conf.template文件名为spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf

2) 修改spark-defaults.conf文件，配置日志存储路径

spark.eventLog.enabled true

spark.eventLog.dir hdfs://linux1:8020/directory

注意：需要启动hadoop集群，HDFS上的目录需要提前存在。

[root@linux1 hadoop]# sbin/start-dfs.sh

[root@linux1 hadoop]# hadoop fs -mkdir /directory

3) 修改spark-env.sh文件, 添加日志配置

export SPARK_HISTORY_OPTS="

-Dspark.history.ui.port=18080

-Dspark.history.fs.logDirectory=hdfs://linux1:8020/directory

-Dspark.history.retainedApplications=30"

l 参数1含义：WEB UI访问的端口号为18080

l 参数2含义：指定历史服务器日志存储路径

l 参数3含义：指定保存Application历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数。

4) 修改spark-defaults.conf

spark.yarn.historyServer.address=linux1:18080

spark.history.ui.port=18080

5) 启动历史服务

sbin/start-history-server.sh

6) 重新提交应用

bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master yarn \

--deploy-mode client \

./examples/jars/spark-examples_2.12-3.0.0.jar \

1) Web页面查看日志：http://linux2:8088

K8S & Mesos模式

Mesos是Apache下的开源分布式资源管理框架，它被称为是分布式系统的内核,在Twitter得到广泛使用,管理着Twitter超过30,0000台服务器上的应用部署，但是在国内，依然使用着传统的Hadoop大数据框架，所以国内使用Mesos框架的并不多，但是原理其实都差不多，这里我们就不做过多讲解了。

容器化部署是目前业界很流行的一项技术，基于Docker镜像运行能够让用户更加方便地对应用进行管理和运维。容器管理工具中最为流行的就是Kubernetes（k8s），而Spark也在最近的版本中支持了k8s部署模式。这里我们也不做过多的讲解。给个链接大家自己感受一下：https://spark.apache.org/docs/latest/running-on-kubernetes.html

端口号

Ø Spark查看当前Spark-shell运行任务情况端口号：4040（计算）

Ø Spark Master内部通信服务端口号：7077

Ø Standalone模式下，Spark Master Web端口号：8080（资源）

Ø Spark历史服务器端口号：18080

Ø Hadoop YARN任务运行情况查看端口号：8088

Spark学习--1、Spark入门（Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式）（一）

1、Spark概述

1.1 什么是Spark

1.2 Hadoop和Spark历史

1.3 Hadoop和Spark框架对比

1.4 Spark内置模块

1.5 Spark特点

快速上手-WordCount-Spark环境

2、Spark 运行模式

2.1 Spark安装地址

2.2 Local模式

3.1.1 解压缩文件

3.1.2 启动Local环境

3.1.3 命令行工具

3.1.4 退出本地模式

3.1.5 提交应用

Standalone模式

3.2.1 解压缩文件

3.2.2 修改配置文件

3.2.3 启动集群

3.2.4 提交应用

3.2.5 提交参数说明

配置历史服务

配置高可用（HA）

Yarn模式

3.3.1 解压缩文件

3.3.2 修改配置文件

3.3.3 启动HDFS以及YARN集群

3.3.4 提交应用

配置历史服务器

K8S & Mesos模式

端口号

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark学习--1、Spark入门（Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式）（一）

1、Spark概述

1.1 什么是Spark

1.2 Hadoop和Spark历史

1.3 Hadoop和Spark框架对比

1.4 Spark内置模块

1.5 Spark特点

快速上手-WordCount-Spark环境

2、Spark 运行模式

2.1 Spark安装地址

2.2 Local模式

3.1.1 解压缩文件

3.1.2 启动Local环境

3.1.3 命令行工具

3.1.4 退出本地模式

3.1.5 提交应用

Standalone模式

3.2.1 解压缩文件

3.2.2 修改配置文件

3.2.3 启动集群

3.2.4 提交应用

3.2.5 提交参数说明

配置历史服务

配置高可用（HA）

Yarn模式

3.3.1 解压缩文件

3.3.2 修改配置文件

3.3.3 启动HDFS以及YARN集群

3.3.4 提交应用

配置历史服务器

K8S & Mesos模式

端口号

热门文章

最新文章

相关课程

相关电子书