《Hadoop与大数据挖掘》——2.2 Hadoop配置及IDE配置

简介:

本节书摘来自华章计算机《Hadoop与大数据挖掘》一书中的第2章,第2.2节,作者 张良均 樊哲 位文超 刘名军 许国杰 周龙 焦正升,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2 Hadoop配置及IDE配置

2.2.1 准备工作

image

上面的虚拟机参数配置只是参考,可以根据自身机器的实际情况进行调整。

在配置好Hadoop集群所需机器后,先确认下集群拓扑,本次部署采用的集群拓扑如图2-16所示。

如文中未做说明,则所有操作都是在root用户下执行。但是,在生产环节,一般不会使用root用户,这点需要注意。

2.2.2 环境配置

1.安装JDK

(1)文件下载

到www.oracle.com网站上下载自己系统对应JDK版本。文件名如jdk-7u-linux-x64.tar.gz,注意下载64位的版本。

(2)解压文件

把下载下来的文件上传到Linux机器,并解压缩到某个路径下,如/usr/local目录。

mv jdk-7u<version>-linux-x64.tar.gz /usr/ local
tar zxvf jdk-7u<version>-linux-x64.tar.gz

(3)配置Java环境变量

编辑/etc/profile文件,在末尾加上Java配置,如代码清单2-1所示。

image

2.配置ssh无密码登录

1)生成公钥和私钥,执行ssh-keygen –t rsa,接着按3次Enter键即可,如代码清单2-2所示。

image
image

在~/.ssh目录生成两个文件,id_rsa为私钥,id_rsa.pub为公钥。

2)设置hosts文件。在/etc/hosts文件中配置IP与HOSTNAME的映射(IP根据自己机器情况设置),如代码清单2-3所示。

image

3)导入公钥到认证文件,执行ssh-copy-id命令,如代码清单2-4所示。

image

接着分别执行:

ssh-copy-id -i /root/.ssh/id_rsa.pub slave1
ssh-copy-id -i /root/.ssh/id_rsa.pub slave2
ssh-copy-id -i /root/.ssh/id_rsa.pub slave3

即可导入公钥到其他所有子节点。

4)验证。打开终端,直接输入ssh master、ssh slave1、ssh slave2、ssh slave3,如果可直接登录,而不需要输入密码,则ssh无密码登录配置成功。

[root@master ~]# ssh master
Last login: Tue Nov  3 18:39:41 2015 from 192.168.0.1

3.配置NTP

配置NTP主要是为了进行集群间的时间同步,需要注意在master、slave1、slave2、slave3节点分别执行“yum install ntp”,即可安装该软件。

假设将Master节点作为NTP服务主节点,那么其配置(修改/etc/ntp.conf文件)如代码清单2-5所示。

image

在slave1~slave3配置NTP,同样修改/etc/ntp.conf文件,内容如代码清单2-6所示。

image

在master、slave1、slave2、slave3节点执行“service ntpd start &chkconfig ntpd on”,即可启动并永久启动NTP服务。

4.配置Hadoop集群

上传Hadoop安装包到master机器,并解压缩到/usr/local目录,使用代码:

tar -zxf hadoop-2.6.0.tar.gz -C /usr/local

Hadoop配置涉及的配置文件有以下7个:

image

各个配置文件修改如下所示。

1)配置文件1:hadoop-env.sh。

该文件是Hadoop运行基本环境的配置,需要修改为JDK的实际位置。故在该文件中修改JAVA_HOME值为本机安装位置,如代码清单2-7所示。

image

2)配置文件2:yarn-env.sh。

该文件是YARN框架运行环境的配置,同样需要修改Java所在位置。在该文件中修改JAVA_HOME值为本机安装位置,如代码清单2-8所示。

image

3)配置文件3:slaves。

该文件里面保存所有slave节点的信息,如代码清单2-9所示。

image

4)配置文件4:core-site.xml,配置内容如代码清单2-10所示。

image

这个是Hadoop的核心配置文件,这里需要配置两个属性:fs.defaultFS配置了Hadoop的HDFS系统的命名,位置为主机的8020端口,这里需要注意替换hdfs://master:8020,中的斜体master,该名字为NameNode所在机器的机器名;hadoop.tmp.dir配置了Hadoop的临时文件的位置。

5)配置文件5:hdfs-site.xml,配置内容如代码清单2-11所示。

image
image

这个是HDFS相关的配置文件,dfs.namenode.name.dir和dfs.datanode.data.dir分别指定了NameNode元数据和DataNode数据存储位置;dfs.namenode.secondary.http-address配置的是SecondaryNameNode的地址,同样需要注意修改“master”为实际Secondary-NameNode地址;dfs.replication配置了文件块的副本数,默认就是3个,所以这里也可以不配置。

6)配置文件6:mapred-site.xml,配置内容如代码清单2-12所示。

image

这个是MapReduce相关的配置,由于Hadoop2.x使用了YARN框架,所以必须在ma-preduce.framework.name属性下配置yarn。mapreduce.jobhistory.address和mapreduce.job-history.webapp.address是与JobHistoryServer相关的配置,即运行MapReduce任务的日志相关服务,这里同样需要注意修改“master”为实际服务所在机器的机器名。

7)配置文件7:yarn-site.xml,配置内容如代码清单2-13所示。

image
image
image
image

该文件为YARN框架的配置,在最开始命名了一个名为yarn.resourcemanager.hostname的变量,这样在后面YARN的相关配置中就可以直接引用该变量了。其他配置保持不变即可。

将配置好的Hadoop复制到其他节点,直接执行如代码清单2-14所示命令即可(注意,本文使用的从节点名字是slave1、slave2、slave3,读者可根据自己机器实际情况修改)。

image

5.格式化NameNode

做完Hadoop的所有配置后,即可执行格式化NameNode操作。该操作会在NameNode所在机器初始化一些HDFS的相关配置,其命令如代码清单2-15所示。

image

若出现“Storage directory /data/hadoop/hdfs/name has been successsully formatted”的提示,则格式化成功(注意,/data/hadoop/hdfs/name目录就是前面配置的dfs.namenode.name.dir的值)。

2.2.3 集群启动关闭与监控

启动集群,只需要在master节点(NameNode服务所在节点)直接进入Hadoop安装目录,分别执行如代码清单2-16所示的命令即可。

image

关闭集群,同样只需要在master节点(NameNode服务所在节点)直接进入Hadoop安装目录,分别执行如代码清单2-17所示的命令即可(注意关闭顺序)。

image

Hadoop集群相关服务监控如表2-2所示,其监控示意分别如图2-17、图2-18、图2-19所示。

image

image

2.2.4 动手实践:一键式Hadoop集群启动关闭

在使用Hadoop的过程中,如果每次启动Hadoop集群都需要分别执行3次命令才能启动集群,那么每次集群启动或关闭都将很繁琐。为了减少这种操作,可以编写一个脚本来控制Hadoop集群的启动与关闭,所以本实验就是完成这个功能。

image

实验步骤:
1)学习Linux shell命令相关代码;
2)了解Hadoop集群启动关闭流程;
3)编写集群启动关闭shell脚本;
4)测试运行。

2.2.5 动手实践:Hadoop IDE配置

在书中的后续内容中,会针对Hadoop相关MapReduce程序进行讲解以及开发,一个好的程序讲解及代码编写环境,将会非常有利于对应的分析,所以本节就对Hadoop代码分析与开发环境配置做讲解。

image
image

3)打开eclipse,依次选择Window->Perspective->Open Perspective->Other->Map/Reduce,如图2-22、图2-23所示。

image

选中后,单击OK按钮,重启Eclipse。

4)单击图2-24中箭头所指小象图标,即可添加集群。

image

5)配置参数,如图2-25所示。

image

6)查看配置的集群,如图2-26、图2-27所示。

image

image

思考:
1)为什么要配置Hadoop IDE,不配置可以吗?还有其他的配置方式吗?

2)如果有其他方式配置Hadoop IDE,会是什么呢?

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
6月前
|
人工智能 IDE 编译器
如何用给各种IDE配置R语言环境
R语言虽无Python式虚拟环境,但通过Conda管理或多项目隔离方案(如自定义.libPaths或使用renv工具),可实现包依赖独立、版本锁定与环境复现,支持跨平台迁移与协作,真正做到“一次配置,永久可用”。推荐renv+RStudio组合,高效管理项目环境。
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
622 79
|
IDE 开发工具 开发者
手把手教你安装PyCharm 2025:开发者的Python IDE配置全流程+避坑指南
本教程详细介绍了PyCharm 2025版本在Windows系统下的安装流程及配置方法,涵盖AI代码补全与智能调试工具链等新功能。内容包括系统要求、安装步骤、首次运行配置(如主题选择与插件安装)、创建首个Python项目,以及常见问题解决方法。此外,还提供了切换中文界面和延伸学习资源的指导,帮助用户快速上手并高效使用PyCharm进行开发。
5742 61
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
814 4
|
Rust IDE Java
一些常见的IDE和工具链的配置指南
一些常见的IDE和工具链的配置指南
398 10
|
Rust IDE Java
IDE和工具链配置指南
IDE和工具链配置指南
512 9
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
678 2
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
581 1
|
机器学习/深度学习 分布式计算 大数据
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
857 6