文档备案控制台

开发者社区大数据文章正文

搭建Spark集群服务器

2019-06-01 1392

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： tidb1.0开始支持spark，有个组件tiSpark，不过目前只支持spark2.1版本。所以为了启用tiSpark，还需搭建spark集群。在官网下载地址http://spark.apache.org/downloads.html上，我找到了with hadoop的版本。

tidb1.0开始支持spark，有个组件tiSpark，不过目前只支持spark2.1版本。所以为了启用tiSpark，还需搭建spark集群。

在官网下载地址http://spark.apache.org/downloads.html上，我找到了with hadoop的版本。如下图：

下载地址：https://d3kbcqa49mib13.cloudfront.net/spark-2.1.1-bin-hadoop2.7.tgz

目前手中有4台资源
决定选用其中三台搭建spark集群，一台master，两台slave
链接如下：

域名

IP

主从关系

tidb1 192.168.122.16 Master

tidb2 192.168.122.18 Slave

tidb3 192.168.122.19 Slave

顺便说一下，centos7的hostname设定和之前版本已经不一样了。现在只需输入以下命令指定

hostnamectl set-hostname name

name就是你需要指定的hostname

将压缩包下载后，分别上传至三台server的/usr/local目录下，并解压

cd /usr/localtar zxvf spark-2.1.1-bin-hadoop2.7.tgz

准备

在搭建集群环境之前，首先要做的事情是让这三台机器可以互相免密登陆

编辑/etc/hosts

编辑三台server的/etc/hosts

编辑后内容如下：

#127.0.0.1 localhost tidb1 localhost4 localhost4.localdomain4#::1 localhost localhost.localdomain localhost6 localhost6.localdomain6#216.176.179.218 mirrorlist.centos.org192.168.122.16 tidb1192.168.122.18 tidb2192.168.122.19 tidb3

注意：第一行一定要注释，我在安装过程中，spark启动后，日志文件报错，就是因为它没有去找我下面指定的ip和域名，而是老是去连接127.0.0.1

然后让它们生效

source /etc/hosts

安装ssh和rsync

可以通过下面命令查看是否已经安装：

rpm -qa|grep openssh
rpm -qa|grep rsync

如果没有安装ssh和rsync，可以通过下面命令进行安装：

yum install ssh
yum install rsync
service sshd restart

配置Master无密码登录所有Salve

tidb1节点的配置操作

以下是在tidb1节点的配置操作。

1）在tidb1节点上生成密码对，在tidb1节点上执行以下命令：

ssh-keygen -t rsa -P ''

生成的密钥对：id_rsa和id_rsa.pub，默认存储在"/root/.ssh"目录下。

2）接着在tidb1节点上做如下配置，把id_rsa.pub追加到授权的key里面去

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

3）修改ssh配置文件"/etc/ssh/sshd_config"的下列内容，将以下内容的注释去掉

# 启用 RSA 认证RSAAuthentication yes
# 启用公钥私钥配对认证方式PubkeyAuthentication yes
# 公钥文件路径（和上面生成的文件同）AuthorizedKeysFile .ssh/authorized_keys

4）重启ssh服务，才能使刚才设置有效。

service sshd restart

5）验证无密码登录本机是否成功

ssh tidb1

6）接下来的就是把公钥复制到所有的Slave机器上。使用下面的命令进行复制公钥：

scp /root/.ssh/id_rsa.pub root@tidb2:/root/scp /root/.ssh/id_rsa.pub root@tidb3:/root/

tidb2节点的配置操作

1）在"/root/"下创建".ssh"文件夹，如果已经存在就不需要创建了

mkdir /root/.ssh

2）将tidb1的公钥追加到tidb2的授权文件"authorized_keys"中去

cat /root/id_rsa.pub >> /root/.ssh/authorized_keys

3）修改ssh配置文件"/etc/ssh/sshd_config"的下列内容，将以下内容的注释去掉

# 启用 RSA 认证RSAAuthentication yes
# 启用公钥私钥配对认证方式PubkeyAuthentication yes
# 公钥文件路径（和上面生成的文件同）AuthorizedKeysFile .ssh/authorized_keys

4）重启ssh服务，才能使刚才设置有效

service sshd restart

5）切换到tidb1使用ssh无密码登录tidb2

ssh tidb2

6）把"/root/"目录下的"id_rsa.pub"文件删除掉

rm –r /root/id_rsa.pub

tidb3节点的配置操作

1）在"/root/"下创建".ssh"文件夹，如果已经存在就不需要创建了

mkdir /root/.ssh

2）将tidb1的公钥追加到tidb3的授权文件"authorized_keys"中去

cat /root/id_rsa.pub >> /root/.ssh/authorized_keys

3）修改ssh配置文件"/etc/ssh/sshd_config"的下列内容，将以下内容的注释去掉

# 启用 RSA 认证RSAAuthentication yes
# 启用公钥私钥配对认证方式PubkeyAuthentication yes
# 公钥文件路径（和上面生成的文件同）AuthorizedKeysFile .ssh/authorized_keys

4）重启ssh服务，才能使刚才设置有效

service sshd restart

5）切换到tidb1使用ssh无密码登录tidb3

ssh tidb3

6）把"/root/"目录下的"id_rsa.pub"文件删除掉

rm –r /root/id_rsa.pub

配置所有Slave无密码登录Master

tidb2节点的配置操作

1）创建tidb2自己的公钥和私钥，并把自己的公钥追加到"authorized_keys"文件中，执行下面命令

ssh-keygen -t rsa -P ''cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

2）将tidb2节点的公钥"id_rsa.pub"复制到tidb1节点的"/root/"目录下

scp /root/.ssh/id_rsa.pub root@tidb1:/root/

tidb1节点的配置操作

1）将tidb2的公钥追加到tidb1的授权文件"authorized_keys"中去

cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

2）删除tidb2复制过来的"id_rsa.pub"文件

rm –r /root/id_rsa.pub

配置完成后测试从tidb2到tidb1无密码登录

ssh tidb1

tidb3节点的配置操作

1）创建tidb3自己的公钥和私钥，并把自己的公钥追加到"authorized_keys"文件中，执行下面命令：

ssh-keygen -t rsa -P ''cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

2）将tidb3节点的公钥"id_rsa.pub"复制到tidb1节点的"/root/"目录下

scp /root/.ssh/id_rsa.pub root@tidb1:/root/

tidb1节点的配置操作。

1）将tidb3的公钥追加到tidb1的授权文件"authorized_keys"中去

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

2）删除tidb3复制过来的"id_rsa.pub"文件

rm –r /root/id_rsa.pub

配置完成后测试从tidb3到tidb1无密码登录。

ssh tidb1

spark集群搭建

进入到Spark安装目录

cd /usr/local/spark-2.1.1-bin-hadoop2.7

进入conf目录并重命名并修改spark-env.sh.template文件

cd conf/
mv spark-env.sh.template spark-env.sh
vim spark-env.sh

在该配置文件中添加如下配置

export JAVA_HOME=/usr/local/jdk18121export SPARK_MASTER_IP=tidb1export SPARK_MASTER_PORT=7077

保存退出
重命名并修改slaves.template文件

mv slaves.template slaves
vi slaves

在该文件中添加子节点所在的位置（Worker节点）

tidb2
tidb3

保存退出

配置环境变量：

vim /etc/profile#set spark envexport SPARK_HOME=/usr/local/spark-2.1.1-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/binsource /etc/profile

将配置好的Spark拷贝到其他节点上

cd /usr/localscp -r spark-2.1.1-bin-hadoop2.7 root@tidb2:$PWDscp -r spark-2.1.1-bin-hadoop2.7 root@tidb3:$PWD

Spark集群配置完毕，目前是1个Master，2个Worker，在tidb1上启动Spark集群

/usr/local/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh

启动后，控制台显示如下

图2.png

在浏览器中访问tidb1:8080端口，可见启动后情况，如下图

图3.png

关闭集群可用如下命令

/usr/local/spark-2.1.1-bin-hadoop2.7/sbin/stop-all.sh

总结

简单介绍一下Spark集群的工作模式
首先启动一个Master（我这里是tidb1）,然后Master和各个Worker（我这里是tidb2和tidb3）进行通信，其中真正干活的是Worker下的Executor。
我们还需要有一个客户端，这个客户端叫做Driver。它首先和Master建立通信，然后Master负责资源分配，接着让Worker启动Executor,最后让Executor和Driver进行通信。

效果图如下：

文章标签：

网络安全

分布式计算

Spark

数据安全/隐私保护

关键词：

apache spark集群

spark云服务器 ECS

apache spark服务器

李世龙ing

目录

相关文章

南瓜佬

|

4月前

|

弹性计算 Kubernetes jenkins

如何在 ECS/EKS 集群中有效使用 Jenkins

本文探讨了如何将 Jenkins 与 AWS ECS 和 EKS 集群集成，以构建高效、灵活且具备自动扩缩容能力的 CI/CD 流水线，提升软件交付效率并优化资源成本。

南瓜佬

680 0 1

阿里云基础设施.

|

10月前

|

人工智能分布式计算调度

打破资源边界、告别资源浪费：ACK One 多集群Spark和AI作业调度

ACK One多集群Spark作业调度，可以帮助您在不影响集群中正在运行的在线业务的前提下，打破资源边界，根据各集群实际剩余资源来进行调度，最大化您多集群中闲置资源的利用率。

阿里云基础设施.

480 26 26

aliyun6039169770-29419

|

10月前

|

SQL 分布式计算关系型数据库

基于云服务器的数仓搭建-hive/spark安装

本文介绍了在本地安装和配置MySQL、Hive及Spark的过程。主要内容包括： - **MySQL本地安装**：详细描述了内存占用情况及安装步骤，涉及安装脚本的编写与执行，以及连接MySQL的方法。 - **Hive安装**：涵盖了从上传压缩包到配置环境变量的全过程，并解释了如何将Hive元数据存储配置到MySQL中。 - **Hive与Spark集成**：说明了如何安装Spark并将其与Hive集成，确保Hive任务由Spark执行，同时解决了依赖冲突问题。 - **常见问题及解决方法**：列举了安装过程中可能遇到的问题及其解决方案，如内存配置不足、节点间通信问题等。

aliyun6039169770-29419

501 1 1

基于云服务器的数仓搭建-hive/spark安装

aliyun6039169770-29419

|

10月前

|

消息中间件分布式计算资源调度

基于云服务器的数仓搭建-集群安装

本文介绍了大数据集群的安装与配置，涵盖Hadoop、Zookeeper、Kafka和Flume等组件。主要内容包括： 1. **数据模拟** 2. **Hadoop安装部署**：详细描述了HDFS和YARN的配置，包括NameNode、ResourceManager的内存分配及集群启动脚本。 3. **Zookeeper安装**：解压、配置`zoo.cfg`文件，并创建myid文件 4. **Kafka安装**：设置Kafka环境变量、配置`server.properties` 5. **Flume安装**：配置Flume采集日志到Kafka，编写启动脚本进行测试。

aliyun6039169770-29419

358 1 1

游客tvgb6vci6chtq

|

存储分布式计算调度

Spark Master HA 主从切换过程不会影响到集群已有作业的运行，为什么？

Spark Master 的高可用性（HA）机制确保主节点故障时，备用主节点能无缝接管集群管理，保障稳定运行。关键在于： 1. **Driver 和 Executor 独立**：任务执行不依赖 Master。 2. **应用状态保持**：备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**：快速选举新 Master 并同步状态。 4. **容错机制**：任务可在其他 Executor 上重新调度。这些特性保证了集群在 Master 故障时仍能正常运行。

游客tvgb6vci6chtq

285 7 7

武子康

|

SQL 分布式计算 NoSQL

大数据-170 Elasticsearch 云服务器三节点集群搭建测试运行

大数据-170 Elasticsearch 云服务器三节点集群搭建测试运行

武子康

366 4 4

sunrise05

|

Kubernetes 应用服务中间件 nginx

搭建Kubernetes v1.31.1服务器集群，采用Calico网络技术

在阿里云服务器上部署k8s集群，一、3台k8s服务器，1个Master节点，2个工作节点，采用Calico网络技术。二、部署nginx服务到k8s集群，并验证nginx服务运行状态。

sunrise05

4097 2 2

武子康

|

SQL 分布式计算大数据

大数据-100 Spark 集群 Spark Streaming DStream转换黑名单过滤的三种实现方式（一）

大数据-100 Spark 集群 Spark Streaming DStream转换黑名单过滤的三种实现方式（一）

武子康

153 0 0

武子康

|

SQL 分布式计算大数据

大数据-100 Spark 集群 Spark Streaming DStream转换黑名单过滤的三种实现方式（二）

大数据-100 Spark 集群 Spark Streaming DStream转换黑名单过滤的三种实现方式（二）

武子康

139 0 0

武子康

|

消息中间件分布式计算 Kafka

大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流

大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流

武子康

235 0 0

热门文章

最新文章

开源大数据技术专场（上午）:Spark、HBase、JStorm应用与实践

Spark SQL玩起来

Spark SQL性能优化

阿里巴巴瑾谦/沐远：云HBaseSQL及分析——Phoenix&Spark

【译】使用Spark SQL 运行大规模基因组工作流

云栖社区2019年1月技术活动：PG， Java，Spark等30+场预告【持续更新】

EMR Spark Relational Cache的执行计划重写

什么是 Spark Driver，它的职责是什么？

Spark与HBase的集成

7月9日Spark社区直播【通过LLVM加速SparkSQL时间窗口计算】

阿里云服务器ECS是什么？ECS应用场景、租用流程及使用教程整理

服务器数据恢复—光纤存储上oracle数据库数据恢复案例

阿里云2核2G3M带宽99元云服务器测评：价格、性能与续费优势详解

内部文件审计：企业文件服务器审计对网络安全提升有哪些帮助？

阿里云服务器38元、99元、199元特惠详细配置、适用场景及购买条件介绍

使用SCP命令在CentOS 7上向目标服务器传输文件

基于Reactor模式的高性能服务器之Acceptor组件（处理连接）

利用Private Zone DNS - 搭建AD但不搭建DNS服务器如何加域

阿里云服务器2核4G租用价格：最新收费标准、可选实例规格与活动价格参考

阿里云服务器热门实例选择指南：经济型/通用型/计算型性能解析与场景适配

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

Linux Web服务器Nginx搭建与配置

7天玩转云服务器

云服务器选型、迁云最佳实践

云服务器ECS基本操作

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

基于ECS和NAS搭建个人网盘

使用PolarDB和ECS搭建门户网站

基于ECS搭建云上博客

使用ECS和OSS搭建个人网盘

基于ECS搭建FTP服务

下一篇

附部署代码｜云数据库RDS 全托管 Supabase服务：小白轻松搞定开发AI应用