Hadoop HDFS NFS GateWay部署深入详解

简介: 目的:通过挂载的方式,可以类似访问本地磁盘的方式一样的访问Hadoop文件,简单、方便、快捷。

0.系统版本&hadoop版本

1)系统版本


[root@WEB-W031 sbin]# cat /etc/issue

CentOS release 5.8 (Final)

1

2

2)Hadoop版本


[root@WEB-W031 /]# hadoop version

Hadoop 2.7.2

Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r b165c4fe8a74265c792ce23f546c64604acf0e41

Compiled by jenkins on 2016-01-26T00:08Z

Compiled with protoc 2.5.0

From source with checksum d0fda26633fa762bff87ec759ebe689c

This command was run using /home/hadoop/hadoop/share/hadoop/common/hadoop-common-2.7.2.jar

You have new mail in /var/spool/mail/root

1

2

3

4

5

6

7

8

1、配置Core-site.xml文件


<property>

 <name>hadoop.proxyuser.hadoop.groups</name>

 <value>*</value>

 <description>

        The 'nfsserver' user is allowed to proxy all members of the 'users-group1' and

        'users-group2' groups. Note that in most cases you will need to include the

        group "root" because the user "root" (which usually belonges to "root" group) will

        generally be the user that initially executes the mount on the NFS client system.

        Set this to '*' to allow nfsserver user to proxy any group.

 </description>

</property>


<property>

 <name>hadoop.proxyuser.hadoop.hosts</name>

 <value>*</value>

 <description>

        This is the host where the nfs gateway is running. Set this to '*' to allow

        requests from any hosts to be proxied.

 </description>


</property>

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

含义解读:

1)hadoop.proxyuser.hadoop.groups:第二个和执行Hadoop的用户名一致,本测试用的名称为Hadoop。

2)hadoop.proxyuser.hadoop.hosts:第二个和执行Hadoop的用户名一致,本测试用的名称为Hadoop。


2、配置hdfs-site.xml文件


    <property>

 <name>dfs.namenode.accesstime.precision</name>

 <value>3600000</value>

 <description>The access time for HDFS file is precise upto this value.

   The default value is 1 hour. Setting a value of 0 disables

   access times for HDFS.

 </description>

</property>


 <property>

   <name>nfs.dump.dir</name>

   <value>/tmp/.hdfs-nfs</value>

 </property>


<property>

 <name>nfs.exports.allowed.hosts</name>

 <value>* rw</value>

</property>


<property>

   <name>nfs.rtmax</name>

   <value>1048576</value>

   <description>This is the maximum size in bytes of a READ request supported by the NFS gateway. If you change this, make sure you also update the nfs mount's rsize(add rsize= # of bytes to the mount directive).</description>

</property>


<property>

   <name>nfs.wtmax</name>

   <value>65536</value>

   <description>This is the maximum size in bytes of a WRITE request supported by the NFS gateway. If you change this, make sure you also update the nfs mount's wsize(add wsize= # of bytes to the mount directive).</description>

</property>

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

3、配置*/etc/hadoop/log4j.properties


log4j.logger.org.apache.hadoop.hdfs.nfs=DEBUG

log4j.logger.org.apache.hadoop.oncrpc=DEBUG

1

2

4、root用户下停止portmap(Centos 5.X系统),停止nfs



[root@WEB-W031 etc]# service portmap stop

Stopping portmap: [ OK ]

[root@WEB-W031 hadoop]# service nfs stop

1

2

3

4

注意:5.X的portmap 等价于 6.X上的rpcbind

并通过:service nfs status 验证是否已经结束。

并通过:service portmap status 验证是否已经结束。


5、开启Hadoop的Portmap服务(需要root权限)


[root]> /sbin/hadoop-daemon.sh –script /bin/hdfs start portmap


6、开启Hadoop的Nfs3服务(需要执行Hadoop的用户权限,本系统为Hadoop)


[hadoop]$ /sbin/hadoop-daemon.sh –script /bin/hdfs start nfs3


7、开启Hadoop并验证(需要执行Hadoop的用户权限,本系统为Hadoop)


[root@WEB-W031 sbin]# ./start-dfs.sh

[root@WEB-W031 sbin]# jps

14728 ResourceManager

27478 Jps

5228 Portmap

14104 NameNode

14373 SecondaryNameNode

16762 org.eclipse.equinox.launcher_1.3.0.v20130327-1440.jar

13512 Nfs3

1

2

3

4

5

6

7

8

9

8、验证NFS相关服务是否启动成功

1)验证各服务是否成功运行


[root@WEB-W031 hadoop]# rpcinfo -p $nfs_server_ip

program vers proto port

100005 2 tcp 4242 mountd

100000 2 udp 111 portmapper

100000 2 tcp 111 portmapper

100005 1 tcp 4242 mountd

100003 3 tcp 2049 nfs

100005 1 udp 4242 mountd

100005 3 udp 4242 mountd

100005 3 tcp 4242 mountd

1

2

3

4

5

6

7

8

9

10

2)显示挂载路径


[root@WEB-W031 hadoop]# showmount -e $nfs_server_ip

Export list for WEB-W031:

/ *

1

2

3

9、实施挂载


[root]>mount -t nfs -o vers=3,proto=tcp,nolock,noacl,sync $10.0.1.31:/  /hdfsnew

1

10、查看挂载是否成功


[root@WEB-W031 hdfsnew]# ls -al

total 10

drwxr-xr-x  5 root   2584148964  160 Mar 11 09:43 .

drwxr-xr-x 31 root   root       4096 Mar 11 10:40 ..

drwxr-xr-x  3 root   root         96 Mar 11 09:58 testing

drwxrwx---  3 hadoop 2584148964   96 Mar  9 11:14 tmp

drwxr-xr-x  3 hadoop 2584148964   96 Mar  9 13:24 user

[root@WEB-W031 hdfsnew]# cd testing/

[root@WEB-W031 testing]# ls -al

total 2

drwxr-xr-x 3 root   root        96 Mar 11 09:58 .

drwxr-xr-x 5 root   2584148964 160 Mar 11 09:43 ..

-rw-rw-r-- 1 hadoop hadoop      18 Mar 11 10:08 dffafdadafasdfaf

[root@WEB-W031 testing]# echo  "testinglaoyang" > testlaoyang

[root@WEB-W031 testing]# ls -al

total 2

drwxr-xr-x 4 root   root       128 Mar 11 18:05 .

drwxr-xr-x 5 root   2584148964 160 Mar 11 09:43 ..

-rw-rw-r-- 1 hadoop hadoop      18 Mar 11 10:08 dffafdadafasdfaf

-rw-r--r-- 1 root   root        15 Mar 11 18:05 testlaoyang

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

11、访问效果

image.png

12、结束服务

1)NFS3服务结束(必须和启动hadoop用户一致)


[hadoop]$ */sbin/hadoop-daemon.sh --script */bin/hdfs stop nfs3

1

2)PortMap服务结束(必须为root用户)


[root]> */sbin/hadoop-daemon.sh --script */bin/hdfs start portmap

1

3)Hadoop结束(必须和启动hadoop用户一致)


“`

[hadoop@WEB-W031 sbin]# ./stop-dfs.sh


13、常见问题

java 进程 占用了111 端口

[root@WEB-W031 etc]# lsof -i:111

COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME

java 31206 root 474u IPv4 93384812 0t0 TCP *:sunrpc (LISTEN)

java 31206 root 476u IPv4 93384815 0t0 UDP *:sunrpc

解决方案:kill -9 31206


错误明细

[root@xx sbin]# mount -t nfs -o vers=3,proto=tcp,nolock,noacl,sync localhost:/ /hdfs_y

mount.nfs: Input/output error

注意:一定要注意配置文件的细节含义。

解决方案:

http://stackoverflow.com/questions/35910751/hdfs-nfs-gateway-mount-nfs-input-output-error/35935229#35935229


参考:

https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsNfsGateway.html#Allow_mounts_from_unprivileged_clients

http://tianxingzhe.blog.51cto.com/3390077/1650182


相关文章
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(二)
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(二)
|
2月前
|
分布式计算 Ubuntu Hadoop
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(一)
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(一)
|
2月前
|
存储 分布式计算 Hadoop
【揭秘Hadoop背后的秘密!】HDFS读写流程大曝光:从理论到实践,带你深入了解Hadoop分布式文件系统!
【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件,专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构,前者负责元数据管理,后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取,有助于理解HDFS的工作原理及其在大数据处理中的应用价值。
56 1
|
2月前
|
存储 缓存 分布式计算
|
2月前
|
SQL 分布式计算 Hadoop
centos7通过CDH部署Hadoop
centos7通过CDH部署Hadoop
|
2月前
|
分布式计算 Java Linux
centos7通过Ambari2.74部署Hadoop
centos7通过Ambari2.74部署Hadoop
|
2月前
|
存储 分布式计算 监控
Hadoop在云计算环境下的部署策略
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。随着云计算技术的发展,越来越多的企业开始利用云平台的优势来部署Hadoop集群,以实现更高的可扩展性、可用性和成本效益。本文将探讨如何在公有云、私有云及混合云环境下部署和管理Hadoop集群,并提供具体的部署策略和代码示例。
59 0
|
2月前
|
存储 分布式计算 资源调度
Hadoop生态系统概览:从HDFS到Spark
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它由多个组件构成,旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件,包括HDFS、MapReduce、YARN,并探讨它们如何与现代大数据处理工具如Spark集成。
60 0
|
2月前
|
Java 应用服务中间件 nginx
【Azure Spring Apps】Spring App部署上云遇见 502 Bad Gateway nginx
【Azure Spring Apps】Spring App部署上云遇见 502 Bad Gateway nginx

相关实验场景

更多
下一篇
无影云桌面