文档备案控制台

开发者社区大数据文章正文

搭建Spark集群服务器

2019-06-01 1737

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： tidb1.0开始支持spark，有个组件tiSpark，不过目前只支持spark2.1版本。所以为了启用tiSpark，还需搭建spark集群。在官网下载地址http://spark.apache.org/downloads.html上，我找到了with hadoop的版本。

tidb1.0开始支持spark，有个组件tiSpark，不过目前只支持spark2.1版本。所以为了启用tiSpark，还需搭建spark集群。

在官网下载地址http://spark.apache.org/downloads.html上，我找到了with hadoop的版本。如下图：

下载地址：https://d3kbcqa49mib13.cloudfront.net/spark-2.1.1-bin-hadoop2.7.tgz

目前手中有4台资源
决定选用其中三台搭建spark集群，一台master，两台slave
链接如下：

域名

IP

主从关系

tidb1 192.168.122.16 Master

tidb2 192.168.122.18 Slave

tidb3 192.168.122.19 Slave

顺便说一下，centos7的hostname设定和之前版本已经不一样了。现在只需输入以下命令指定

hostnamectl set-hostname name

name就是你需要指定的hostname

将压缩包下载后，分别上传至三台server的/usr/local目录下，并解压

cd /usr/localtar zxvf spark-2.1.1-bin-hadoop2.7.tgz

准备

在搭建集群环境之前，首先要做的事情是让这三台机器可以互相免密登陆

编辑/etc/hosts

编辑三台server的/etc/hosts

编辑后内容如下：

#127.0.0.1 localhost tidb1 localhost4 localhost4.localdomain4#::1 localhost localhost.localdomain localhost6 localhost6.localdomain6#216.176.179.218 mirrorlist.centos.org192.168.122.16 tidb1192.168.122.18 tidb2192.168.122.19 tidb3

注意：第一行一定要注释，我在安装过程中，spark启动后，日志文件报错，就是因为它没有去找我下面指定的ip和域名，而是老是去连接127.0.0.1

然后让它们生效

source /etc/hosts

安装ssh和rsync

可以通过下面命令查看是否已经安装：

rpm -qa|grep openssh
rpm -qa|grep rsync

如果没有安装ssh和rsync，可以通过下面命令进行安装：

yum install ssh
yum install rsync
service sshd restart

配置Master无密码登录所有Salve

tidb1节点的配置操作

以下是在tidb1节点的配置操作。

1）在tidb1节点上生成密码对，在tidb1节点上执行以下命令：

ssh-keygen -t rsa -P ''

生成的密钥对：id_rsa和id_rsa.pub，默认存储在"/root/.ssh"目录下。

2）接着在tidb1节点上做如下配置，把id_rsa.pub追加到授权的key里面去

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

3）修改ssh配置文件"/etc/ssh/sshd_config"的下列内容，将以下内容的注释去掉

# 启用 RSA 认证RSAAuthentication yes
# 启用公钥私钥配对认证方式PubkeyAuthentication yes
# 公钥文件路径（和上面生成的文件同）AuthorizedKeysFile .ssh/authorized_keys

4）重启ssh服务，才能使刚才设置有效。

service sshd restart

5）验证无密码登录本机是否成功

ssh tidb1

6）接下来的就是把公钥复制到所有的Slave机器上。使用下面的命令进行复制公钥：

scp /root/.ssh/id_rsa.pub root@tidb2:/root/scp /root/.ssh/id_rsa.pub root@tidb3:/root/

tidb2节点的配置操作

1）在"/root/"下创建".ssh"文件夹，如果已经存在就不需要创建了

mkdir /root/.ssh

2）将tidb1的公钥追加到tidb2的授权文件"authorized_keys"中去

cat /root/id_rsa.pub >> /root/.ssh/authorized_keys

3）修改ssh配置文件"/etc/ssh/sshd_config"的下列内容，将以下内容的注释去掉

# 启用 RSA 认证RSAAuthentication yes
# 启用公钥私钥配对认证方式PubkeyAuthentication yes
# 公钥文件路径（和上面生成的文件同）AuthorizedKeysFile .ssh/authorized_keys

4）重启ssh服务，才能使刚才设置有效

service sshd restart

5）切换到tidb1使用ssh无密码登录tidb2

ssh tidb2

6）把"/root/"目录下的"id_rsa.pub"文件删除掉

rm –r /root/id_rsa.pub

tidb3节点的配置操作

1）在"/root/"下创建".ssh"文件夹，如果已经存在就不需要创建了

mkdir /root/.ssh

2）将tidb1的公钥追加到tidb3的授权文件"authorized_keys"中去

cat /root/id_rsa.pub >> /root/.ssh/authorized_keys

3）修改ssh配置文件"/etc/ssh/sshd_config"的下列内容，将以下内容的注释去掉

# 启用 RSA 认证RSAAuthentication yes
# 启用公钥私钥配对认证方式PubkeyAuthentication yes
# 公钥文件路径（和上面生成的文件同）AuthorizedKeysFile .ssh/authorized_keys

4）重启ssh服务，才能使刚才设置有效

service sshd restart

5）切换到tidb1使用ssh无密码登录tidb3

ssh tidb3

6）把"/root/"目录下的"id_rsa.pub"文件删除掉

rm –r /root/id_rsa.pub

配置所有Slave无密码登录Master

tidb2节点的配置操作

1）创建tidb2自己的公钥和私钥，并把自己的公钥追加到"authorized_keys"文件中，执行下面命令

ssh-keygen -t rsa -P ''cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

2）将tidb2节点的公钥"id_rsa.pub"复制到tidb1节点的"/root/"目录下

scp /root/.ssh/id_rsa.pub root@tidb1:/root/

tidb1节点的配置操作

1）将tidb2的公钥追加到tidb1的授权文件"authorized_keys"中去

cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

2）删除tidb2复制过来的"id_rsa.pub"文件

rm –r /root/id_rsa.pub

配置完成后测试从tidb2到tidb1无密码登录

ssh tidb1

tidb3节点的配置操作

1）创建tidb3自己的公钥和私钥，并把自己的公钥追加到"authorized_keys"文件中，执行下面命令：

ssh-keygen -t rsa -P ''cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

2）将tidb3节点的公钥"id_rsa.pub"复制到tidb1节点的"/root/"目录下

scp /root/.ssh/id_rsa.pub root@tidb1:/root/

tidb1节点的配置操作。

1）将tidb3的公钥追加到tidb1的授权文件"authorized_keys"中去

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

2）删除tidb3复制过来的"id_rsa.pub"文件

rm –r /root/id_rsa.pub

配置完成后测试从tidb3到tidb1无密码登录。

ssh tidb1

spark集群搭建

进入到Spark安装目录

cd /usr/local/spark-2.1.1-bin-hadoop2.7

进入conf目录并重命名并修改spark-env.sh.template文件

cd conf/
mv spark-env.sh.template spark-env.sh
vim spark-env.sh

在该配置文件中添加如下配置

export JAVA_HOME=/usr/local/jdk18121export SPARK_MASTER_IP=tidb1export SPARK_MASTER_PORT=7077

保存退出
重命名并修改slaves.template文件

mv slaves.template slaves
vi slaves

在该文件中添加子节点所在的位置（Worker节点）

tidb2
tidb3

保存退出

配置环境变量：

vim /etc/profile#set spark envexport SPARK_HOME=/usr/local/spark-2.1.1-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/binsource /etc/profile

将配置好的Spark拷贝到其他节点上

cd /usr/localscp -r spark-2.1.1-bin-hadoop2.7 root@tidb2:$PWDscp -r spark-2.1.1-bin-hadoop2.7 root@tidb3:$PWD

Spark集群配置完毕，目前是1个Master，2个Worker，在tidb1上启动Spark集群

/usr/local/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh

启动后，控制台显示如下

图2.png

在浏览器中访问tidb1:8080端口，可见启动后情况，如下图

图3.png

关闭集群可用如下命令

/usr/local/spark-2.1.1-bin-hadoop2.7/sbin/stop-all.sh

总结

简单介绍一下Spark集群的工作模式
首先启动一个Master（我这里是tidb1）,然后Master和各个Worker（我这里是tidb2和tidb3）进行通信，其中真正干活的是Worker下的Executor。
我们还需要有一个客户端，这个客户端叫做Driver。它首先和Master建立通信，然后Master负责资源分配，接着让Worker启动Executor,最后让Executor和Driver进行通信。

效果图如下：

文章标签：

网络安全

分布式计算

Spark

数据安全/隐私保护

关键词：

云服务器 ECS集群

云服务器 ECS spark

云服务器 ECSspark

吴梦涵

目录

相关文章

南瓜佬

|

9月前

|

弹性计算 Kubernetes jenkins

如何在 ECS/EKS 集群中有效使用 Jenkins

本文探讨了如何将 Jenkins 与 AWS ECS 和 EKS 集群集成，以构建高效、灵活且具备自动扩缩容能力的 CI/CD 流水线，提升软件交付效率并优化资源成本。

南瓜佬

909 0 1

武子康

|

SQL 机器学习/深度学习分布式计算

大数据-81 Spark 安装配置环境集群环境配置超详细三台云服务器

大数据-81 Spark 安装配置环境集群环境配置超详细三台云服务器

武子康

1013 1 1

aliyun6039169770-29419

|

SQL 分布式计算关系型数据库

基于云服务器的数仓搭建-hive/spark安装

本文介绍了在本地安装和配置MySQL、Hive及Spark的过程。主要内容包括： - **MySQL本地安装**：详细描述了内存占用情况及安装步骤，涉及安装脚本的编写与执行，以及连接MySQL的方法。 - **Hive安装**：涵盖了从上传压缩包到配置环境变量的全过程，并解释了如何将Hive元数据存储配置到MySQL中。 - **Hive与Spark集成**：说明了如何安装Spark并将其与Hive集成，确保Hive任务由Spark执行，同时解决了依赖冲突问题。 - **常见问题及解决方法**：列举了安装过程中可能遇到的问题及其解决方案，如内存配置不足、节点间通信问题等。

aliyun6039169770-29419

672 1 1

基于云服务器的数仓搭建-hive/spark安装

aliyun6039169770-29419

|

消息中间件分布式计算资源调度

基于云服务器的数仓搭建-集群安装

本文介绍了大数据集群的安装与配置，涵盖Hadoop、Zookeeper、Kafka和Flume等组件。主要内容包括： 1. **数据模拟** 2. **Hadoop安装部署**：详细描述了HDFS和YARN的配置，包括NameNode、ResourceManager的内存分配及集群启动脚本。 3. **Zookeeper安装**：解压、配置`zoo.cfg`文件，并创建myid文件 4. **Kafka安装**：设置Kafka环境变量、配置`server.properties` 5. **Flume安装**：配置Flume采集日志到Kafka，编写启动脚本进行测试。

aliyun6039169770-29419

454 1 2

武子康

|

消息中间件分布式计算监控

大数据-78 Kafka 集群模式集群的应用场景与Kafka集群的搭建三台云服务器

大数据-78 Kafka 集群模式集群的应用场景与Kafka集群的搭建三台云服务器

武子康

399 6 6

武子康

|

SQL 分布式计算 NoSQL

大数据-170 Elasticsearch 云服务器三节点集群搭建测试运行

大数据-170 Elasticsearch 云服务器三节点集群搭建测试运行

武子康

521 4 4

sunrise05

|

Kubernetes 应用服务中间件 nginx

搭建Kubernetes v1.31.1服务器集群，采用Calico网络技术

在阿里云服务器上部署k8s集群，一、3台k8s服务器，1个Master节点，2个工作节点，采用Calico网络技术。二、部署nginx服务到k8s集群，并验证nginx服务运行状态。

sunrise05

4868 3 3

武子康

|

SQL 分布式计算 Hadoop

Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作列族信息扫描全表

Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作列族信息扫描全表

武子康

299 3 3

武子康

|

分布式计算 Hadoop Shell

Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查全程多图详细列族 row key value filter

Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查全程多图详细列族 row key value filter

武子康

331 3 3

程序员在线

|

8月前

|

弹性计算运维安全

阿里云轻量应用服务器与云服务器ECS啥区别？新手帮助教程

阿里云轻量应用服务器适合个人开发者搭建博客、测试环境等低流量场景，操作简单、成本低；ECS适用于企业级高负载业务，功能强大、灵活可扩展。二者在性能、网络、镜像及运维管理上差异显著，用户应根据实际需求选择。

程序员在线

732 10 11

热门文章

最新文章

阿里云服务器ecs配置之安装mysql

VPC DHCP类型的ECS修改DNS

阿里云学生服务器申请流程_学生党免费领7个月学生机

Nginx直播服务器搭建及推拉流测试

【实用】防暴力破解服务器ssh登入次数

win32 TCP网络文件传输服务器端1.23

阿里云倚天云服务器计算型c8y、通用型g8y、内存型r8y优惠价格参考（按年与按带宽）

公司官网建站笔记（二）：在云服务器部署PHP服务（公网访问首页

查看远程Redis服务器的版本

Linux NFS服务器的安装与配置

JSP 教程之 JSP 服务器响应 3

JSP 教程之 JSP 服务器响应 2

ECS使用体验的文章

高校学生在家实践ECS弹性云服务器

蓝易云 - 1U和2U的服务器怎么选择

蓝易云 - 云服务器和自建服务器有什么区别

租用阿里云企业级云服务器最新收费标准与活动价格参考

服务器数据恢复—EqualLogic存储硬盘出现故障的数据恢复案例

服务器故障与管理口与raid

ECS使用体验

相关课程

更多

ECS上云入门三部曲

服务器硬件基础

Linux Web服务器Nginx搭建与配置

7天玩转云服务器

云服务器选型、迁云最佳实践

云服务器ECS基本操作

相关电子书

更多

如何运维千台以上游戏云服务器

网站/服务器取证实践与挑战

ECS块储存产品全面解析

相关实验场景

更多

基于ECS部署一款规划行程的AI Agent

基于ECS部署DeepSeek个人专属AI网站

在ECS上使用阿里云百炼部署满血版deepseek r1

基于ECS和OSS快速搭建个人简历网站

使用ECS和RDS搭建个人博客

ECS服务保活和宕机启动

下一篇

小红书笔记详情API深度解析与实战指南（2025年最新版）