Spark集群独立模式HA

简介:

一、Spark简介:


Spark是一种与Hadoop相似的开源集群计算环境

Spark基于MR算法实现的分布式计算,拥有Hadoop MR的优点,不同的是结果保存在内存中

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReduce快40倍左右

Spark是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架

Spark兼容Hadoop的API,能够读写Hadoop的HDFS HBASE 顺序文件等


传统的hadoop

wKioL1URY7nRlAbqAAFgqu76O_Y976.jpg



Spark

wKiom1URYpiR_49-AAGA5sVsokc685.jpg


环境概述:

192.168.1.2 master

192.168.1.3 worker

192.168.1.4 worker


二、Scala环境设置


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
[root@master ~] # tar zxvf scala-2.10.4.tgz -C /home/hadoop/
[root@master ~] # cd /home/hadoop/
[root@master hadoop] # ln -s scala-2.10.4 scala
[root@master ~] # chown -R hadoop.hadoop /home/hadoop/
# Scala
export  SCALA_HOME= /home/hadoop/scala
export  PATH=$PATH:$HADOOP_DEV_HOME /sbin :$HADOOP_DEV_HOME /bin :$SCALA_HOME /bin
[root@master hadoop] # source /home/hadoop/.bashrc 
[root@master hadoop] # su - hadoop
[hadoop@master ~]$ scala
Welcome to Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_25 ).


     本文转自ljl_19880709 51CTO博客,原文链接:http://blog.51cto.com/luojianlong/1622837 ,如需转载请自行联系原作者



相关文章
|
9月前
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
11月前
|
存储 分布式计算 调度
Spark Master HA 主从切换过程不会影响到集群已有作业的运行, 为什么?
Spark Master 的高可用性(HA)机制确保主节点故障时,备用主节点能无缝接管集群管理,保障稳定运行。关键在于: 1. **Driver 和 Executor 独立**:任务执行不依赖 Master。 2. **应用状态保持**:备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**:快速选举新 Master 并同步状态。 4. **容错机制**:任务可在其他 Executor 上重新调度。 这些特性保证了集群在 Master 故障时仍能正常运行。
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
141 0
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
122 0
|
消息中间件 分布式计算 Kafka
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
190 0
|
消息中间件 分布式计算 Kafka
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
265 0
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
288 0
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
234 0
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
278 0
|
存储 SQL 分布式计算
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(一)
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(一)
202 0

热门文章

最新文章