Hadoop FSDataInputStream 流定位的例子

简介:

不单独说明了,代码中的注释很详细了

 

 
 
  1. /** 
  2.  * 
  3.  * Description: 这个例子用于展示Hadoop的FSDataInputStream的流定位能力 
  4.  * 
  5.  * @author charles.wang 
  6.  * @created Mar 13, 2012 9:21:34 AM 
  7.  *  
  8.  */ 
  9. public class FileSystemCatSeekable { 
  10.      
  11.     public static void main(String [] args) throws Exception{ 
  12.          
  13.         //获取命令行参数 
  14.         String uri = args[0]; 
  15.          
  16.         Configuration conf = new Configuration(); 
  17.         conf.set("hadoop.job.ugi""root,root123"); 
  18.          
  19.          
  20.         //打开一个Hadoop FileSystem ,用FileSystem的静态方法获取之 
  21.         FileSystem fs = FileSystem.get(URI.create(uri) ,conf); 
  22.          
  23.         //打开一个InputStream 对象 
  24.         FSDataInputStream in = null
  25.          
  26.         try
  27.          
  28.         //让其指向FileSystem中由命令行提供的uri对应的路径 
  29.         in =fs.open(new Path (uri)); 
  30.          
  31.         //第一次读取 
  32.         IOUtils.copyBytes(in, System.out, 20false); 
  33.          
  34.         //让读头重新定位到文件起始地方 
  35.         in.seek(0); 
  36.          
  37.         //第二次读取 
  38.         IOUtils.copyBytes(in, System.out, 20false); 
  39.          
  40.         }catch (Exception ex){ 
  41.             ex.printStackTrace(); 
  42.         }finally
  43.             in.close(); 
  44.         } 
  45.     } 




本文转自 charles_wang888 51CTO博客,原文链接:http://blog.51cto.com/supercharles888/840725,如需转载请自行联系原作者

目录
相关文章
|
Web App开发 分布式计算 监控
CentOS6上Hadoop集群中服务器cpu sys态异常的定位与解决
问题现象 在zabbix系统中,对Hadoop集群的历史监控数据分析时,发现在执行大Job任务时,某些服务节点的cpu sys态很高; 具体以hadoop_A服务节点为例,在10:15-10:40这个时间段,cpu user态为60%,而sys态则高达35%; 对于整个Hadoop集群,并不是所有的节点都会出现sys过高的问题,产生此类问题的都是部署CentOS6系统的节点。
1587 0
|
8月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
403 79
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
495 6
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
287 2
|
11月前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
551 4
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
544 2
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
451 1
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
272 5
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
166 4
|
XML 大数据 网络安全
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(一)
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(一)
253 5

相关实验场景

更多