Hadoop hdfs+Spark配置

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
云原生网关 MSE Higress,422元/月
注册配置 MSE Nacos/ZooKeeper,182元/月
简介:

Hadoop hdfs配置(版本2.7)

hadoop-env.sh

export JAVA_HOME=/home/java/jdk1.8.0_45

hdfs-site.xml


<name>dfs.nameservices</name>
<value>guanjian</value>


<name>dfs.ha.namenodes.guanjian</name>
<value>nn1,nn2</value>


<name>dfs.namenode.rpc-address.guanjian.nn1</name>
<value>host1:8020</value>


<name>dfs.namenode.rpc-address.guanjian.nn2</name>
<value>host2:8020</value>


<name>dfs.namenode.http-address.guanjian.nn1</name>
<value>host1:50070</value>


<name>dfs.namenode.http-address.guanjian.nn2</name>
<value>host2:50070</value>


<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://host1:8485;host2:8485/guanjian</value>


<name>dfs.client.failover.proxy.provider.guanjian</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>


<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>


<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_dsa</value>


<name>dfs.journalnode.edits.dir</name>
<value>/opt/jn/data</value>


<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>

core-site.xml


<name>fs.defaultFS</name>
<value>hdfs://guanjian</value>


<name>ha.zookeeper.quorum</name>
<value>192.168.5.129:2181</value>


<name>hadoop.tmp.dir</name>
<value>/opt/hadoop2</value>


slaves

host1
host2

在/etc/hosts中,host1,host2分别制定为

192.168.5.129 host1
192.168.5.182 host2

手动建两个文件夹

mkdir -p /opt/jn/data

mkdir /opt/hadoop2

在sbin目录下启动journalnode

./hadoop-daemon.sh start journalnode

格式化namenode,在bin目录下

./hdfs namenode -format

同机启动namenode,在/bin

./hadoop-daemon.sh start namenode

在没有格式化的机器上,在/bin

./hdfs namenode -bootstrapStandby

停止所有的dfs,在/sbin

./stop-dfs.sh

格式化zkfc,在/bin

./hdfs zkfc -formatZK

进入zookeeper查看

WatchedEvent state:SyncConnected type:None path:null
[zk: localhost:2181(CONNECTED) 0] ls /
[zookeeper, hadoop-ha, guanjian]

我们可以看到多了一个hadoop-ha节点

一次性启动全部hdfs,在/sbin

./start-dfs.sh

访问192.168.5.182:50070(active)
image
访问192.168.5.129:50070(standby)
image
创建目录,在/bin

./hdfs dfs -mkdir -p /usr/file
image
上传文件,在/bin

./hdfs dfs -put /home/soft/jdk-8u45-linux-x64.tar.gz /usr/file
image
点击jdk-XXX.tar.gz可以看到它有2个Block(1个Block128M)
image
image
Spark配置(版本2.2.0)

spark-env.sh

export JAVA_HOME=/home/java/jdk1.8.0_45

export SPARK_MASTER_HOST=192.168.5.182

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=192.168.5.129:2181 -Dspark.deploy.zookeeper.dir=/spark"
export SPARK_MASTER_PORT=7077

slaves

host1
host2

修改Web端口,/sbin下

start-master.sh

if [ "$SPARK_MASTER_WEBUI_PORT" = "" ]; then
SPARK_MASTER_WEBUI_PORT=8091 //原始端口8080,容易与其他冲突
fi

在其中一台启动,如在host2启动,/sbin下

./start-all.sh

在另外一台host1启动master,/sbin下

./start-master.sh

host2:alive
image
host1:standby
image
进入zookeeper查看,多了一个spark节点

WatchedEvent state:SyncConnected type:None path:null
[zk: localhost:2181(CONNECTED) 0] ls /
[zookeeper, spark, hadoop-ha, guanjian]

相关文章
|
8月前
|
XML 存储 分布式计算
【赵渝强老师】史上最详细:Hadoop HDFS的体系架构
HDFS(Hadoop分布式文件系统)由三个核心组件构成:NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求,维护元数据文件fsimage和edits;DataNode存储实际的数据块,默认大小为128MB;SecondaryNameNode定期合并edits日志到fsimage中,但不作为NameNode的热备份。通过这些组件的协同工作,HDFS实现了高效、可靠的大规模数据存储与管理。
906 70
|
8月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
401 79
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
495 6
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
542 2
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
450 1
|
SQL 分布式计算 监控
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
206 3
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
272 5
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
166 4
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
468 5
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
235 4

相关实验场景

更多