搭建Spark集群服务器

简介: tidb1.0开始支持spark,有个组件tiSpark,不过目前只支持spark2.1版本。所以为了启用tiSpark,还需搭建spark集群。在官网下载地址http://spark.apache.org/downloads.html上,我找到了with hadoop的版本。


tidb1.0开始支持spark,有个组件tiSpark,不过目前只支持spark2.1版本。所以为了启用tiSpark,还需搭建spark集群。

在官网下载地址http://spark.apache.org/downloads.html上,我找到了with hadoop的版本。如下图:


2018-01-24_132147.png



下载地址:https://d3kbcqa49mib13.cloudfront.net/spark-2.1.1-bin-hadoop2.7.tgz


目前手中有4台资源
决定选用其中三台搭建spark集群,一台master,两台slave
链接如下:


域名

IP

主从关系


tidb1    192.168.122.16    Master    

tidb2    192.168.122.18    Slave    

tidb3    192.168.122.19    Slave   

 

顺便说一下,centos7的hostname设定和之前版本已经不一样了。现在只需输入以下命令指定

hostnamectl set-hostname name


name就是你需要指定的hostname


将压缩包下载后,分别上传至三台server的/usr/local目录下,并解压


cd  /usr/localtar zxvf spark-2.1.1-bin-hadoop2.7.tgz


准备


在搭建集群环境之前,首先要做的事情是让这三台机器可以互相免密登陆


编辑/etc/hosts


编辑三台server的/etc/hosts

编辑后内容如下:


#127.0.0.1   localhost tidb1 localhost4 localhost4.localdomain4#::1         localhost localhost.localdomain localhost6 localhost6.localdomain6#216.176.179.218 mirrorlist.centos.org192.168.122.16 tidb1192.168.122.18 tidb2192.168.122.19 tidb3


注意:第一行一定要注释,我在安装过程中,spark启动后,日志文件报错,就是因为它没有去找我下面指定的ip和域名,而是老是去连接127.0.0.1

然后让它们生效

source /etc/hosts

安装ssh和rsync

可以通过下面命令查看是否已经安装:

rpm -qa|grep openssh
rpm -qa|grep rsync

如果没有安装ssh和rsync,可以通过下面命令进行安装:

yum install ssh
yum install rsync
service sshd restart

配置Master无密码登录所有Salve

tidb1节点的配置操作

以下是在tidb1节点的配置操作。

1)在tidb1节点上生成密码对,在tidb1节点上执行以下命令:

ssh-keygen -t rsa -P ''

生成的密钥对:id_rsa和id_rsa.pub,默认存储在"/root/.ssh"目录下。

2)接着在tidb1节点上做如下配置,把id_rsa.pub追加到授权的key里面去

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

3)修改ssh配置文件"/etc/ssh/sshd_config"的下列内容,将以下内容的注释去掉

# 启用 RSA 认证RSAAuthentication yes
# 启用公钥私钥配对认证方式PubkeyAuthentication yes
# 公钥文件路径(和上面生成的文件同)AuthorizedKeysFile .ssh/authorized_keys

4)重启ssh服务,才能使刚才设置有效。

service sshd restart

5)验证无密码登录本机是否成功

ssh tidb1

6)接下来的就是把公钥复制到所有的Slave机器上。使用下面的命令进行复制公钥:

scp /root/.ssh/id_rsa.pub root@tidb2:/root/scp /root/.ssh/id_rsa.pub root@tidb3:/root/

tidb2节点的配置操作

1)在"/root/"下创建".ssh"文件夹,如果已经存在就不需要创建了

mkdir /root/.ssh

2)将tidb1的公钥追加到tidb2的授权文件"authorized_keys"中去

cat /root/id_rsa.pub >> /root/.ssh/authorized_keys

3)修改ssh配置文件"/etc/ssh/sshd_config"的下列内容,将以下内容的注释去掉

# 启用 RSA 认证RSAAuthentication yes
# 启用公钥私钥配对认证方式PubkeyAuthentication yes
# 公钥文件路径(和上面生成的文件同)AuthorizedKeysFile .ssh/authorized_keys

4)重启ssh服务,才能使刚才设置有效

service sshd restart

5)切换到tidb1使用ssh无密码登录tidb2

ssh tidb2

6)把"/root/"目录下的"id_rsa.pub"文件删除掉

rm –r /root/id_rsa.pub

tidb3节点的配置操作

1)在"/root/"下创建".ssh"文件夹,如果已经存在就不需要创建了

mkdir /root/.ssh

2)将tidb1的公钥追加到tidb3的授权文件"authorized_keys"中去

cat /root/id_rsa.pub >> /root/.ssh/authorized_keys

3)修改ssh配置文件"/etc/ssh/sshd_config"的下列内容,将以下内容的注释去掉

# 启用 RSA 认证RSAAuthentication yes
# 启用公钥私钥配对认证方式PubkeyAuthentication yes
# 公钥文件路径(和上面生成的文件同)AuthorizedKeysFile .ssh/authorized_keys

4)重启ssh服务,才能使刚才设置有效

service sshd restart

5)切换到tidb1使用ssh无密码登录tidb3

ssh tidb3

6)把"/root/"目录下的"id_rsa.pub"文件删除掉

rm –r /root/id_rsa.pub

配置所有Slave无密码登录Master

tidb2节点的配置操作

1)创建tidb2自己的公钥和私钥,并把自己的公钥追加到"authorized_keys"文件中,执行下面命令

ssh-keygen -t rsa -P ''cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

2)将tidb2节点的公钥"id_rsa.pub"复制到tidb1节点的"/root/"目录下

scp /root/.ssh/id_rsa.pub root@tidb1:/root/

tidb1节点的配置操作

1)将tidb2的公钥追加到tidb1的授权文件"authorized_keys"中去

cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

2)删除tidb2复制过来的"id_rsa.pub"文件

rm –r /root/id_rsa.pub

配置完成后测试从tidb2到tidb1无密码登录

ssh tidb1

tidb3节点的配置操作

1)创建tidb3自己的公钥和私钥,并把自己的公钥追加到"authorized_keys"文件中,执行下面命令:

ssh-keygen -t rsa -P ''cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

2)将tidb3节点的公钥"id_rsa.pub"复制到tidb1节点的"/root/"目录下

scp /root/.ssh/id_rsa.pub root@tidb1:/root/

tidb1节点的配置操作。

1)将tidb3的公钥追加到tidb1的授权文件"authorized_keys"中去

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

2)删除tidb3复制过来的"id_rsa.pub"文件

rm –r /root/id_rsa.pub

配置完成后测试从tidb3到tidb1无密码登录。

ssh tidb1

spark集群搭建

进入到Spark安装目录

cd /usr/local/spark-2.1.1-bin-hadoop2.7

进入conf目录并重命名并修改spark-env.sh.template文件

cd conf/
mv spark-env.sh.template spark-env.sh
vim spark-env.sh

在该配置文件中添加如下配置

export JAVA_HOME=/usr/local/jdk18121export SPARK_MASTER_IP=tidb1export SPARK_MASTER_PORT=7077

保存退出
重命名并修改slaves.template文件

mv slaves.template slaves
vi slaves

在该文件中添加子节点所在的位置(Worker节点)

tidb2
tidb3

保存退出

配置环境变量:

vim /etc/profile#set spark envexport SPARK_HOME=/usr/local/spark-2.1.1-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/binsource /etc/profile

将配置好的Spark拷贝到其他节点上

cd /usr/localscp -r spark-2.1.1-bin-hadoop2.7 root@tidb2:$PWDscp -r spark-2.1.1-bin-hadoop2.7 root@tidb3:$PWD

Spark集群配置完毕,目前是1个Master,2个Worker,在tidb1上启动Spark集群

/usr/local/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh

启动后,控制台显示如下


图2.png

在浏览器中访问tidb1:8080端口,可见启动后情况,如下图


图3.png


关闭集群可用如下命令

/usr/local/spark-2.1.1-bin-hadoop2.7/sbin/stop-all.sh

总结

简单介绍一下Spark集群的工作模式
首先启动一个Master(我这里是tidb1),然后Master和各个Worker(我这里是tidb2和tidb3)进行通信,其中真正干活的是Worker下的Executor。
我们还需要有一个客户端,这个客户端叫做Driver。它首先和Master建立通信,然后Master负责资源分配,接着让Worker启动Executor,最后让Executor和Driver进行通信。


效果图如下:

2018-01-24_131757.png


目录
相关文章
|
9天前
|
负载均衡 算法 应用服务中间件
负载均衡技术在Web服务器集群中的应用
【8月更文第28天】随着互联网的发展和用户对Web服务需求的增长,单台服务器很难满足大规模访问的需求。为了提高系统的稳定性和扩展性,通常会采用Web服务器集群的方式。在这种架构中,负载均衡器扮演着至关重要的角色,它能够合理地分配客户端请求到不同的后端服务器上,从而实现资源的最优利用。
29 2
|
2月前
|
SQL 弹性计算 资源调度
云服务器 ECS产品使用问题之bin/spark-sql --master yarn如何进行集群模式运行
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
2月前
|
NoSQL 关系型数据库 MySQL
多机部署:打造内网服务器集群
在多机部署教程中,了解如何配置分布式应用如Laravel以使用Redis同步用户状态。关键步骤包括:修改MySQL的`bind-address`至内网IP,重启服务;同样修改Redis的`bind`,重启服务;以及调整Elasticsearch的`network.host`和`discovery.seed_hosts`,并重启。通过这些步骤,确保服务间能内网通信,实现多服务器状态同步。
64 2
|
3月前
|
Linux 网络安全
支付系统35-----支付成功异步通知----数据锁,微信那边是有一个服务器集群的,不单单是有一个通知发送过来,有可能有两台更多台的服务器发送过来,把锁加到我们处理通知里面,在对业务数据进行状态检查和
支付系统35-----支付成功异步通知----数据锁,微信那边是有一个服务器集群的,不单单是有一个通知发送过来,有可能有两台更多台的服务器发送过来,把锁加到我们处理通知里面,在对业务数据进行状态检查和
|
4月前
|
SQL 弹性计算 分布式计算
实时计算 Flink版产品使用合集之如果产品是基于ak的,可以提交sql任务到ecs自建hadoop集群吗
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
4月前
|
存储 Java 网络安全
ZooKeeper【搭建 03】apache-zookeeper-3.6.0 伪集群版(一台服务器实现三个节点的ZooKeeper集群)
【4月更文挑战第10天】ZooKeeper【搭建 03】apache-zookeeper-3.6.0 伪集群版(一台服务器实现三个节点的ZooKeeper集群)
66 1
|
4月前
|
消息中间件 存储 Kafka
Kafka【环境搭建 02】kafka_2.11-2.4.1 基于 zookeeper 搭建高可用伪集群(一台服务器实现三个节点的 Kafka 集群)
【2月更文挑战第19天】Kafka【环境搭建 02】kafka_2.11-2.4.1 基于 zookeeper 搭建高可用伪集群(一台服务器实现三个节点的 Kafka 集群)
177 1
|
4月前
|
Java 网络安全 Apache
搭建Zookeeper集群:三台服务器,一场分布式之舞
搭建Zookeeper集群:三台服务器,一场分布式之舞
421 0
|
22天前
|
机器学习/深度学习 编解码 人工智能
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
随着人工智能、大数据和深度学习等领域的快速发展,GPU服务器的需求日益增长。阿里云的GPU服务器凭借强大的计算能力和灵活的资源配置,成为众多用户的首选。很多用户比较关心gpu云服务器的收费标准与活动价格情况,目前计算型gn6v实例云服务器一周价格为2138.27元/1周起,月付价格为3830.00元/1个月起;计算型gn7i实例云服务器一周价格为1793.30元/1周起,月付价格为3213.99元/1个月起;计算型 gn6i实例云服务器一周价格为942.11元/1周起,月付价格为1694.00元/1个月起。本文为大家整理汇总了gpu云服务器的最新收费标准与活动价格情况,以供参考。
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析

热门文章

最新文章

下一篇
DDNS