搭建Hadoop集群(一)

简介: 搭建Hadoop集群(一)

内容

昨晚运行了一个wordcount,惊觉Hadoop很多细节知识忘记了,于是今天把本地的虚拟机全部移除,从头开始搭建了一个三节点的Hadoop集群。原虚拟机中的Hive、Zk、HBase、Spark等框架,后续逐个添加。

环境

VMware、CentOS6.8、Hadoop2.7.2、Java1.8、XShell6、Xftp6

步骤

1、Vm没有卸载,直接创建新的虚拟机,选项几乎默认,剩下的两台在安装完各种环境后,直接克隆。安装前硬件:内存一定要大,另外找一个空间够大的固态盘,最少准备60G,防止后面框架运行空间不足。


微信图片_20220429121206.jpg


2、安装CentOS系统,这一步需要手动配置分区,并且在自定义软件的地方吧Java和服务器环境去除,后面自己安装。其他的软禁少选一点,不然非常慢,后面几乎不用虚拟机的桌面,用的是XShell操作。


3、虚拟机开机后,设置一下ip地址和开机自启动,连上XShell。设置防火墙关闭。


微信图片_20220429121210.jpg


4、安装Java8。我没有从官网下载,直接从之前做项目的阿里云上拿过来。


5、安装Hadoop。Hadoop2.7.2版本。


6、进行三种模式下的Wordcount测试。


微信图片_20220429121215.jpg


7、本地文件运行时,报错:java.net.UnknownHostException: h1: h1: 未知的名称或服务.解决方法:vi /etc/hosts ip h1,我在这里顺便把另外两个的ip都加上了。


微信图片_20220429121218.jpg


8、伪分布式运行。修改core-site和hdfs-site文件,格式化namenode,然后分别启动namenode和datanode。重复本地运行的运行步骤


9、接下来是配置伪分布式的Yarn和搭建完全分布式。

注意事项

网关ip和DNS的ip一致,等于NAT设置中的网关ip即可。

相关文章
|
2月前
|
存储 分布式计算 资源调度
Hadoop入门基础(三):如何巧妙划分Hadoop集群,全面提升数据处理性能?
Hadoop入门基础(三):如何巧妙划分Hadoop集群,全面提升数据处理性能?
|
29天前
|
分布式计算 Hadoop Devops
Hadoop集群配置https实战案例
本文提供了一个实战案例,详细介绍了如何在Hadoop集群中配置HTTPS,包括生成私钥和证书文件、配置keystore和truststore、修改hdfs-site.xml和ssl-client.xml文件,以及重启Hadoop集群的步骤,并提供了一些常见问题的故障排除方法。
42 3
Hadoop集群配置https实战案例
|
6天前
|
分布式计算 Hadoop Java
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
本文是一份详细的Hadoop集群搭建指南,基于Hadoop 3.3.4版本和CentOS 8操作系统。文章内容包括虚拟机创建、网络配置、Java与Hadoop环境搭建、克隆虚拟机、SSH免密登录设置、格式化NameNode、启动Hadoop集群以及通过UI界面查看Hadoop运行状态。同时,还提供了常见问题的解决方案。
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
|
1月前
|
机器学习/深度学习 分布式计算 安全
Hadoop集群常见报错汇总
这篇博客总结了Hadoop集群中可能遇到的各种常见错误,包括Kerberos认证问题、配置错误、权限问题等,并为每个问题提供了详细的错误复现、原因分析以及相应的解决方案。
47 1
Hadoop集群常见报错汇总
|
1月前
|
资源调度 分布式计算 运维
Hadoop集群资源管理篇-资源调度器
详细介绍了Hadoop集群资源管理中的资源调度器,包括资源分配的概念、大数据运维工程师如何管理集群工作负载、资源调度器的背景、Hadoop提供的FIFO、容量调度器和公平调度器三种资源调度器的概述以及它们之间的对比。
70 4
|
1月前
|
分布式计算 监控 Hadoop
监控Hadoop集群实战篇
介绍了监控Hadoop集群的方法,包括监控Linux服务器、Hadoop指标、使用Ganglia监控Hadoop集群、Hadoop日志记录、通过Hadoop的Web UI进行监控以及其他Hadoop组件的监控,并提供了相关监控工具和资源的推荐阅读链接。
48 2
|
2月前
|
机器学习/深度学习 存储 分布式计算
Hadoop高可用集群搭建
Hadoop高可用集群搭建
|
2月前
|
存储 分布式计算 负载均衡
|
2月前
|
存储 分布式计算 资源调度
Hadoop集群的扩展性与容错能力
【8月更文第28天】Hadoop 是一种用于处理和存储大规模数据集的开源软件框架。它由两个核心组件构成:Hadoop 分布式文件系统 (HDFS) 和 MapReduce 计算框架。Hadoop 的设计考虑了可扩展性和容错性,使其成为大规模数据处理的理想选择。
49 0
|
2月前
|
存储 分布式计算 Hadoop
【Azure 存储服务】Hadoop集群中使用ADLS(Azure Data Lake Storage)过程中遇见执行PUT操作报错
【Azure 存储服务】Hadoop集群中使用ADLS(Azure Data Lake Storage)过程中遇见执行PUT操作报错

相关实验场景

更多
下一篇
无影云桌面