部署在阿里云的EMR集群,通过公网进行连接,使用HDFS的JAVA-SDK,进行目录树的维护以及文件存储、下载。
1. 集群环境
a. EMR集群版本
阿里云EMR on ECS集群
集群版本 EMR-5.9.0
集群类型 DataLake
HadoopCommon 3.2.1
HDFS 3.2.1
2. 本地环境
a. Java环境
本地环境配置java==1.8.0
~/.bash_profile配置环境变量如下
配置好环境变量后查看java的版本
java -version
b. hadoop客户端
hadoop客户端下载地址:https://archive.apache.org/dist/hadoop/common/
解压后配置环境变量:
配置完成之后查看相关的版本信息:
c. Maven配置
java项目的maven依赖配置,需要注意hadoop相关的需要保持版本和emr集群版本的一致。另外还有junit负责测试和log4j的日志管理。
<dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.2.1</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>3.2.1</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-hdfs</artifactId><version>3.2.1</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version><scope>compile</scope></dependency></dependencies>
d. 公网安全组入端口放行
在EMR集群的安全组设置中,开放本地ip地址到8020端口的权限
e. 样例代码
packagecom.aliyun; importorg.apache.hadoop.conf.Configuration; importorg.apache.hadoop.fs.FileSystem; importorg.apache.hadoop.fs.Path; importorg.junit.After; importorg.junit.Before; importorg.junit.Test; importjava.io.IOException; importjava.net.URI; importjava.net.URISyntaxException; publicclassHDFSClientTest00 { privateFileSystemfileSystem; publicvoidinit() throwsURISyntaxException, IOException { URIuri=newURI("hdfs://${master_node_ip}:${hdfs_port}"); Configurationconfiguration=newConfiguration(); fileSystem=FileSystem.get(uri, configuration); } // 创建一个根目录下的文件夹publicvoidtestMkdir() throwsIOException { fileSystem.mkdirs(newPath("/paper2")); } publicvoidend() throwsIOException { fileSystem.close(); } }
3. 常见问题
a. Standby NameNode无法对外提供服务
【问题】
EMR高可用集群,默认3个master节点,1个Active NameNode和2个Standby NameNode,通过URI指定master集群如果指定到Standby NameNode所在的节点则会报如下错误,Standby NameNode默认不对外客户端提供交互。
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category WRITE is not supported in state standby. Visit https://s.apache.org/sbnn-error
【解决】
可以登录到集群任意一个master节点上执行如下命令确认当前的ANN是哪个节点,并更改FileSystem类中指定的URI。
b. NameNode无法ping通
【问题】
在通过java的sdk进行文件的上传和下载的时候,会报错ConnectTimeoutException,根据日志来看,本地java在尝试与某个DataNode的内网IP进行通讯,获取blockreader进行数据的读取,详细报错如下:
2022-10-3117:09:09,233 WARN [org.apache.hadoop.hdfs.client.impl.BlockReaderFactory] - I/O error constructing remote block reader. org.apache.hadoop.net.ConnectTimeoutException: 60000 millis timeout while waiting for channel to be ready for connect. ch : java.nio.channels.SocketChannel[connection-pending remote=/${DataNode的内网ip地址}:9866]
文件下载到本地笔记本所用到的方法如下:
publicvoidtestGetFile() throwsIOException { fileSystem.copyToLocalFile(newPath("/peixun/peixun.txt"), newPath("/Users/adamsun/output")); }
【原因】
与HDFS的文件交互默认使用内网的IP地址,当本地JAVA客户端与NameNode进行交互鉴权并获得某个文件的所有Block块存储在DataNode的位置后,需要自定与DataNode进行交互并获取、上传数据,在此期间根据NameNode的返回的内网IP地址和端口肯定本地是ping不通的
【解决】
- 在FileSystem类默认的配置对象中指定,节点之间的交互使用域名的方式进行。
Configurationconfiguration=newConfiguration(); configuration.set("dfs.client.use.datanode.hostname", "true");
- 配置安全组,开放本地ip地址到9866端口的入权限
- 配置本地的 /etc/hosts ,加入所有的DataNode节点并路由到公网IP地址