cdh5.1.0 yum安装说明-阿里云开发者社区

开发者社区> jiacai2050> 正文

cdh5.1.0 yum安装说明

简介: <div class="markdown_views"> <p>接触过hadoop的人都知道hadoop的搭建过程非常麻烦,尤其是对于初学者,幸运的是有cloudera这样的公司为我们做了一些发行版,我们可以直接使用apt-get,yum等包管理工具进行安装。 <br> 下面我要说得是,在centos6.5 64位下,通过yum安装cdh5.1.0,需要注意的是5.1.0默认是
+关注继续查看

接触过hadoop的人都知道hadoop的搭建过程非常麻烦,尤其是对于初学者,幸运的是有cloudera这样的公司为我们做了一些发行版,我们可以直接使用apt-get,yum等包管理工具进行安装。
下面我要说得是,在centos6.5 64位下,通过yum安装cdh5.1.0,需要注意的是5.1.0默认是mapred2(也就是yarn模式),我这里安装的是mapred1。也就是传统的hadoop模式。

1.系统要求

先看看cloudera官方说明,最好是按照人家说得版本来,毕竟人家测试过了,没问题呀,你要是非用不支持的版本,注定是一场折腾之路。

这里我重点说下/etc/hosts的配置,在namenode与jobtracker所在的机器上,一定不要有

127.0.0.0 <hostname>

这条记录,并且要把所有子结点的ip与hostname配进去。
否则你会遇到各种错误,下面是一个错误:

2015-02-05 12:35:30,145 INFO org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl: Time to add replicas to map for block pool BP-2009649341-10.6.8.213-1423108250285 on volume /data/dfs/dn/current: 1ms
2015-02-05 12:35:30,145 INFO org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl: Total time to add all replicas to map: 6ms
2015-02-05 12:35:30,148 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Block pool BP-2009649341-10.6.8.213-1423108250285 (Datanode Uuid null) service to /10.6.8.213:8020 beginning handshake with NN
2015-02-05 12:35:33,219 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool BP-2009649341-10.6.8.213-1423108250285 (Datanode Uuid null) service to /10.6.8.213:8020 Datanode denied communication with namenode because hostname cannot be resolved (ip=10.6.3.175, hostname=10.6.3.175): DatanodeRegistration(0.0.0.0, datanodeUuid=177b02e8-6692-4c69-8e4d-d0d14566ce72, infoPort=50075, ipcPort=50020, storageInfo=lv=-55;cid=CID-dcde3b04-134d-42c2-ac61-143ef3869377;nsid=1437835541;c=0)
        at org.apache.hadoop.hdfs.server.blockmanagement.DatanodeManager.registerDatanode(DatanodeManager.java:802)
        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.registerDatanode(FSNamesystem.java:4314)
        at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.registerDatanode(NameNodeRpcServer.java:980)
        at org.apache.hadoop.hdfs.protocolPB.DatanodeProtocolServerSideTranslatorPB.registerDatanode(DatanodeProtocolServerSideTranslatorPB.java:92)
        at org.apache.hadoop.hdfs.protocol.proto.DatanodeProtocolProtos$DatanodeProtocolService$2.callBlockingMethod(DatanodeProtocolProtos.java:28057)
        at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:585)
        at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1026)
        at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1986)
        at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1982)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:415)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1554)
        at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1980)

这个错误,是在启动namenode后,启动datanode时的错误,从错误信息来看,这时在datanode向namenode注册时的错。

2.配置源

/etc/yum.repo.d中创建一个repo文件,内容为

[cloudera-cdh5]
name=Cloudera's Distribution for Hadoop, Version 5
baseurl= http://archive.cloudera.com/cdh5/redhat/5/x86_64/cdh/5.1.0/
gpgkey = http://archive.cloudera.com/cdh5/redhat/5/x86_64/cdh/RPM-GPG-KEY-cloudera
gpgcheck = 0

配置源后,执行下

yum clean all

3.下载hadoop组件

hadoop2.0把各个模块都给分出来了。hdfs、mapred、yarn、client都是作为独立的模块的,可以单独安装。

yum -y install hadoop-hdfs-namenode
yum -y install hadoop-0.20-mapreduce-jobtracker
yum -y install hadoop-hdfs-datanode
yum -y install hadoop-0.20-mapreduce-tasktracker

大家可以根据机器的角色,安装不同的组件。
在客户端执行hadoop任务时,需要安装

yum install hadoop-client

4. 修改配置文件

通过yum安装,配置文件默认在/etc/hadoop/conf文件夹中。需要修改下面三个配置文件:
core-site.xml

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:8020</value>
</property>

hdfs-site.xml

<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:///data/dfs/nn</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <value>file:///data/dfs/dn</value>
</property>

mapred-site.xml

<property>  
    <name>mapred.job.tracker</name>  
    <value>master:8021</value>  
</property>  
<property>
    <name>mapred.local.dir</name>
    <value>/data/mapred/local</value>
</property>

通过yum安装,conf文件夹中默认没有hadoop-env.sh这个文件,我们可以从其他地方拷过来,在/usr/lib/hadoop-0.20-mapreduce/example-confs/conf.secure/hadoop-env.sh有个参考配置,我们可以把它拷贝过来,并且开头添加下下面的配置:

export JAVA_HOME=/usr/java/default
export HADOOP_MAPRED_HOME=/usr/lib/hadoop-0.20-mapreduce

/usr/java/default是我机器上java的安装目录,你们可根据实际情况进行修改。

5.创建hdfs、mapred所需文件夹

在上面的配置中,hdfs-site.xml中制定了namenode与datanode的存放数据的目录,下面进行创建

mkdir -p /data/dfs/nn /data/dfs/dn 
chown hdfs:hdfs /data/dfs/nn /data/dfs/dn

mapred-site.xml中指定了执行任务时临时数据的存放目录,下面进行创建

mkdir -p /data/mapred/local
chown mapred:mapred /data/mapred/local

这里需要说明的是,在hadoop2.0中,不再推荐用一个hadoop账户来启动所有进程,推荐使用hdfs用户操作hdfs相关进程,mapred用户操作mapred相关进程,yarn用户操作yarn相关进程,在我们用yum安装各个组件时,相应的用户会替我们自动创建。

6.启动进程

首先时在主结点启动namenode

sudo -u hdfs hdfs namenode -format
service hadoop-hdfs-namenode start

之后,在子结点启动datanode

service hadoop-hdfs-datanode start

这样,hdfs就能工作了。下面创建mapred在hdfs上所需的目录

sudo -u hdfs hdfs dfs -mkdir /tmp
sudo -u hdfs hdfs dfs -chmod -R 1777 /tmp

这时,就可以在主结点上启动jobtracker了

service hadoop-0.20-mapreduce-jobtracker start

启动jobtracker后,会在hdfs的tmp下生成如下结构的目录:

最后,在子结点上启动tasktracker就可以了。

service hadoop-0.20-mapreduce-tasktracker start

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Vite2 + Vue3 + TypeScript + Pinia 搭建一套企业级的开发脚手架【值得收藏】
Vite2 + Vue3 + TypeScript + Pinia 搭建一套企业级的开发脚手架【值得收藏】
3 0
软件工程专业如何就业!
引言:曾经有两个强盗向他们的大哥说如果世上没有绞刑架该多好,大哥却回答说如果做强盗的代价那么小,人人都去干了,那么行业的竞争压力该有多大啊,正是因为不容易,做的人少,才有去做的价值啊。 在班会的开篇我给大家讲了这样一个故事,我认为人生就是不断地克服困难向上攀登,阻力是不可避免的,定的目标高一些,辛苦一些,当战胜它之后我们会发现这边风景独好。
13 0
备战5月软考--软件设计师
1.上午场需要做的就是不停的刷题,每个科目的题都要会个大概(大概有11个大考点) 2.下午场需要做的也是不停的做题,下午场的题型比较固定,做来做出都是那几类,自己做完总结适合自己的做题技巧第一题:数据流图方面的设计(实体Ei的名称、数据存储Di的名称,数据流图等)第二题:数据库设计(E-R图、完整性约束等)第三题:用例描述(识别参与者、用例名称、类名等)第四题:算法题第五题:设计模式的Java代码第六题:设计模式的C++代码
10 0
java 中定时器
java 中定时器
17 0
数据库中间件 MyCAT源码分析 —— PreparedStatement 重新入门
数据库中间件 MyCAT源码分析 —— PreparedStatement 重新入门
13 0
Python 初识 | 学习笔记
快速学习 Python 初识
17 0
【Linux:开源操作系统】
主要内容 一、 关闭Windows防火墙 关闭Windows防火墙,不要使用wifi共享精灵等软件。 二、 Linux简介
17 0
什么是前端开发?什么是后端开发?
什么是前端开发?什么是后端开发?
21 0
+关注
jiacai2050
http://liujiacai.net/
83
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载