Hadoop 利用FileSystem API 执行hadoop文件读写操作-阿里云开发者社区

Hadoop 利用FileSystem API 执行hadoop文件读写操作

2017-11-22 1235

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

因为HDFS不同于一般的文件系统，所以Hadoop提供了强大的FileSystem API来操作HDFS.

核心类是FSDataInputStream和FSDataOutputStream

读操作：

我们用FSDataInputStream来读取HDFS中的指定文件（第一个实验），另外我们还演示了这个类的定位文件位置的能力，然后从指定位置开始读取文件（第二个实验）。

代码如下：


  
  

   
   /*  

   
    */ 

   
   package com.charles.hadoop.fs; 

   
    

   
    

   
   import java.net.URI; 

   
    

   
   import org.apache.hadoop.conf.Configuration; 

   
   import org.apache.hadoop.fs.FSDataInputStream; 

   
   import org.apache.hadoop.fs.FileSystem; 

   
   import org.apache.hadoop.fs.Path; 

   
   import org.apache.hadoop.io.IOUtils; 

   
    

   
   /** 

   
    * 

   
    * Description: 查看Hadoop文件系统中的文件，利用hadoop FileSystem接口中的FSDataInputStream 

   
    * FSDataInputStream还具有流定位的能力，可以从文件的任意位置开始读取 

   
    * 

   
    * @author charles.wang 

   
    * @created May 26, 2012 12:28:49 PM 

   
    *  

   
    */ 

   
   public class ReadFromHadoopFileSystem { 

   
    

   
       /** 

   
        * @param args 

   
        */ 

   
       public static void main(String[] args) throws Exception{ 

   
           // TODO Auto-generated method stub 

   
            

   
           //第一个参数传递进来的是hadoop文件系统中的某个文件的URI,以hdfs://ip 的theme开头 

   
           String uri = args[0]; 

   
           //读取hadoop文件系统的配置 

   
           Configuration conf = new Configuration(); 

   
           conf.set("hadoop.job.ugi", "hadoop-user,hadoop-user"); 

   
            

   
           //FileSystem是用户操作HDFS的核心类，它获得URI对应的HDFS文件系统 

   
           FileSystem fs = FileSystem.get(URI.create(uri),conf); 

   
           FSDataInputStream in = null; 

   
           try{ 

   
               //实验一：输出全部文件内容 

   
               System.out.println("实验一：输出全部文件内容"); 

   
               //让FileSystem打开一个uri对应的FSDataInputStream文件输入流，读取这个文件 

   
               in = fs.open( new Path(uri) ); 

   
               //用Hadoop的IOUtils工具方法来让这个文件的指定字节复制到标准输出流上 

   
               IOUtils.copyBytes(in, System.out,50,false);   

   
               System.out.println(); 

   
                

   
                

   
               //实验二:展示FSDataInputStream文件输入流的流定位能力,用seek进行定位 

   
               System.out.println("实验二:展示FSDataInputStream文件输入流的流定位能力,用seek进行定位"); 

   
                

   
               //假如我们要吧文件输出3次 

   
               //第一次输入全部内容，第二次输入从第20个字符开始的内容，第3次输出从第40个字符开始的内容 

   
               for (int i=1;i<=3;i++){ 

   
                   in.seek(0+20*(i-1)); 

   
                   System.out.println("流定位第 "+i+" 次：" ); 

   
                   IOUtils.copyBytes(in, System.out,4096,false);  

   
               } 

   
           }finally{ 

   
               IOUtils.closeStream(in); 

   
           } 

   
    

   
       } 

   
    

   
   }

我们传入的命令行参数为我们要读的HDFS文件系统中某文件的URI:


  
  

   
   hdfs://192.168.129.35:9000/user/hadoop-user/textfile.txt

最终输出结果为：


  
  

   
   实验一：输出全部文件内容 

   
   This is a text file edited by charles to test the hadoop distributed file system's features. 

   
    

   
   实验二:展示FSDataInputStream文件输入流的流定位能力,用seek进行定位 

   
   流定位第 1 次： 

   
   This is a text file edited by charles to test the hadoop distributed file system's features. 

   
   流定位第 2 次： 

   
   edited by charles to test the hadoop distributed file system's features. 

   
   流定位第 3 次：

写操作：

我们用FSDataOutputStream来写文件到HDFS系统中，或者说从本地文件系统中复制文件到HDFS文件系统中。其中这个本地文件系统是相对于运行这段java代码的宿主系统。

代码如下：


  
  

   
   /*  

   
    */ 

   
   package com.charles.hadoop.fs; 

   
    

   
   import java.io.BufferedInputStream; 

   
   import java.io.FileInputStream; 

   
   import java.io.InputStream; 

   
   import java.io.OutputStream; 

   
   import java.net.URI; 

   
    

   
   import org.apache.hadoop.conf.Configuration; 

   
   import org.apache.hadoop.fs.FileSystem; 

   
   import org.apache.hadoop.fs.Path; 

   
   import org.apache.hadoop.io.IOUtils; 

   
   import org.apache.hadoop.util.Progressable; 

   
    

   
   /** 

   
    * 

   
    * Description: 这个类展示如何将一个文件从本地文件系统复制到 HDFS 

   
    * 

   
    * @author charles.wang 

   
    * @created May 26, 2012 1:00:39 PM 

   
    *  

   
    */ 

   
   public class WriteToHadoopFileSystem { 

   
    

   
       /** 

   
        * @param args 

   
        */ 

   
       public static void main(String[] args)throws Exception{ 

   
           // TODO Auto-generated method stub 

   
            

   
           //两个参数分别是本地文件系统的的输入文件路径和HDFS中的输出文件位置 

   
           //如果这段代码最终运行在Hadoop所在的服务器上，那么本地文件系统是相对于那台服务器的本地文件系统 

   
           //如果这段代码运行在我们Windows PC上，那么本地文件系统是这台Window PC的文件系统 

   
           String localSrc = args[0]; 

   
           String dst= args[1]; 

   
            

   
           //因为本地文件系统是基于java.io包的，所以我们创建一个本地文件输入流 

   
           InputStream in = new BufferedInputStream( new FileInputStream(localSrc)); 

   
            

   
           //读取hadoop文件系统的配置 

   
           Configuration conf = new Configuration(); 

   
           conf.set("hadoop.job.ugi", "hadoop-user,hadoop-user"); 

   
            

   
            

   
           //仍然用FileSystem和HDFS打交道 

   
           //获得一个对应HDFS目标文件的文件系统

   
           FileSystem fs = FileSystem.get(URI.create(dst), conf); 

   
           //创建一个指向HDFS目标文件的输出流 

   
           OutputStream out = fs.create(new Path(dst) ); 

   
           //用IOUtils工具将文件从本地文件系统复制到HDFS目标文件中 

   
           IOUtils.copyBytes(in, out, 4096,true); 

   
            

   
           System.out.println("复制完成"); 

   
            

   
       } 

   
    

   
   }

我们传入2个命令行参数，一个是本地文件系统中被复制的文件路径，第二个要复制到的HDFS文件系统中的目标文件路径：


  
  

   
   copyMe.txt

   
   hdfs://192.168.129.35:9000/user/hadoop-user/copyMe.txt

我们去文件系统中去检查文件，果然文件被复制上去了：

打开这个目标文件,果然内容与预期一样：

本文转自 charles_wang888 51CTO博客，原文链接：http://blog.51cto.com/supercharles888/878921，如需转载请自行联系原作者

Hadoop 利用FileSystem API 执行hadoop文件读写操作

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Hadoop 利用FileSystem API 执行hadoop文件读写操作

热门文章

最新文章

相关课程

相关电子书

相关实验场景