hadoop学习第一天之伪分布模式安装( 上)

简介: Hadoop核心项目: 1.   HDFS:Hadoop Distributed File System 分布式文件系统 2.   MapReduce:并行计算框架   HDFS的架构: 主从结构:                    主节点:只有一个,namenode                    从节点:有很多歌,datanodes    Namenode负责

Hadoop核心项目:

1.   HDFS:Hadoop Distributed File System 分布式文件系统

2.   MapReduce:并行计算框架

 

HDFS的架构:

主从结构:

                   主节点:只有一个,namenode

                   从节点:有很多歌,datanodes

   Namenode负责:

3.   接收用户操作请求

4.   维护文件系统的目录结构

5.   管理文件与block之间的关系,block与datanode之间的关系

Datanode负责:

1.   存储文件

2.   文件被分为block存储在磁盘上

3.   为保证数据安全,文件会有多个副本

MapReduce架构:

1.   主从结构

a)     主节点,只有一个:JobTracker(项目经理)

b)     从节点:有很多TaskTrackers(开发人员)

2.   JobTracker负责

a)     接收客户提交的计算请求

b)     把计算任务分配给TaskTrackers执行

c)      监控TaskTracker的执行情况

3.   TaskTrackers负责

a)     执行JobTracker分配的计算任务

Hadoop特点:

1.   扩容能力(Scalable):PB级数据

2.   成本低(Economical):普通机器组成服务群

3.   高效率(Efficient):  分发数据,在各个节点并行处理他们,使得整体处理速度很高

4.   可靠性(Reliable):自动维护任务多个副本,并且在任务失败后能自动重新部署

 

 

主从节点的安装机器是没有区别的,主节点还是从节点根据机器上的进程是否为JobTracker和NameNode

Hadoop部署方式:

1.   本地模式:生产中不用

2.   伪分布模式:学习使用

3.   集群模式:开发生产用

伪分布模式安装步骤:

1.   关闭防火墙

2.   修改IP

3.   修改hostName

4.   设置ssh自动登录

5.   安装jdk

6.   安装hadoop

虚拟机的上网方式改为桥接上网。

      学习时可设置为host-only方式,多个虚拟机只连接宿主机,和外网没有接触。

虚拟机的ip修改:

1.   进入虚拟机Centosà桌面最顶端右击联网图标(两个电脑)à编辑连接à选择System Eth0类似的ip接口à点编辑à选择Ipv4 Setting àmethod设置为Manual,address处add添加上设置的ip地址,掩码和网关,网关需要是宿主机Vm的虚拟ip地址VMnet1的地址à点击Apply


2.   重启网络服务:#service network restart

3.   Ifconfig检查配置是否生效

4.   从CentOS上#ping 192.168.100.1

从宿主机cmd窗口:ping 192.168.100.11

都通了证明Ip配置好了

远程登录:

1.   检查CentOS上的ssh是否开启

PS –e | grep ssh

显示出以sshd结尾的一行就证明sshd服务已经启动,

否则用#service sshd start开启服务,#service sshd stop是关闭服务的。

2.   在宿主机打开PieTTY 输入CentOS的ip地址,点打开

输入root用户和密码,就会登录成功

3.   安装winscp软件,是在linux和windows系统之间传输文件的工具

4.   关闭防火墙

#service iptables  stop  都报OK就是关闭成功

#service iptables status 检查下防火墙关闭状态

这种关闭只是暂时的,可以通过修改配置文件,在开机启动时不启动防火墙。

#vim /etc/selinux/config (默认你会使用vim编辑器)

将SELINUX=enforcing (开机启动) 修改为SELINUX=disabled (开机不启动)。

也可以通过命令关闭防火墙自动启动

#chkconfig  --list| grep iptables

查看iptables的开启状态 0-6共7个

#chkconfig     iptables  off 关闭防火墙

5.   修改主机名:方便连接,不用输入ip了

#hostname 查看主机名

#hostname hadoop1 设置主机名为hadoop1

这样的设置只对当前操作生效,重启后会恢复为原理的主机名,需要修改配置文件才能一劳永逸

#vim /etc/sysconfig/network 文件下

HOSTNAME=hadoop1 保存退出,这样重启后就仍然是hadoop1了,不重启该文件修改时不生效的,可以直接使用hostname 在本次修改主机名

6.   SSH 远程免登陆设置

a)     生成RSA公钥

#ssh-keygen –t rsa

一直回车

b)     查看ssh公钥存在的位置

公钥在当前用户(root)主目录下的.ssh目录下

为id_rsa.pub

#cp  ~/.ssh/id_rsa.pub  ~/.ssh/authorized_keys

就可以实现本机的免密码登录

复制到远程主机,在接下来用scp命令添加公钥

c)      绑定主机名和IP地址

#vim /etc/hosts 添加一行

192.168.100.11  hadoop1  就可以了

#ssh  hadoop1 就可以免密码登录了,第一次会确认公钥,输入yes即可

 

 


相关文章
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
650 6
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
359 2
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
293 4
|
SQL 分布式计算 Hadoop
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
337 3
|
SQL 存储 数据管理
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
255 2
|
SQL
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
280 2
|
分布式计算 资源调度 Hadoop
【赵渝强老师】部署Hadoop的本地模式
本文介绍了Hadoop的目录结构及本地模式部署方法,包括解压安装、设置环境变量、配置Hadoop参数等步骤,并通过一个简单的WordCount程序示例,演示了如何在本地模式下运行MapReduce任务。
401 0
|
分布式计算 资源调度 Hadoop
centos7二进制安装Hadoop3
centos7二进制安装Hadoop3
|
存储 分布式计算 算法
探索Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式
在配置Hadoop集群之前,了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况,选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段,单机模式和伪分布式模式能为用户提供便利和成本效益。进而,当用户要处理大规模数据集时,完全分布式模式将是理想的选择。
1015 2

相关实验场景

更多