用Hadoop管理界面来分析Map-Reduce作业

简介:

 如果我们只是在IDE里面跑Hadoop作业,那么这个作业的运行过程不会显示在Hadoop  管理界面上,但是如果我们把作业上传到服务器上运行,那么作业的运行过程就会显示在管理界面上。

还是以上次的分析最高气温的Map-Reduce为例,源代码可以见 http://supercharles888.blog.51cto.com/609344/878422 这篇博客的内容。我们将其打包成jar包,然后上传到/home/hadoop-user/hadoop-0.20.2/charlestest 目录中:

我们在命令行中执行MaxTemperature类中定义的作业:

 

hadoop jar ParseWeatherFile.jar com.charles.parseweather.MaxTemperature  input/1901.txt output-001

这里我们执行的入口为 WeatherFile的 jar包中的MaxTemperature类,最后2个参数分别是输入文件位置和输出目录:

运行结果如图:

 

现在我们就可以去控制台去看整个过程了:

我们去http://192.168.129.35:50030/jobtracker.jsp 来看map-reduce过程。

在Completed Job部分,我们看到了刚才运行的作业:

对比Job Name刚好是我们在job类中设定的名字,见第43行所示:


  
  
  1. package com.charles.parseweather; 
  2.  
  3.  
  4. import org.apache.hadoop.conf.Configuration; 
  5. import org.apache.hadoop.fs.Path; 
  6. import org.apache.hadoop.io.IntWritable; 
  7. import org.apache.hadoop.io.Text; 
  8. import org.apache.hadoop.mapreduce.Job; 
  9. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
  10. import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 
  11. import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
  12. import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; 
  13.  
  14.  
  15. /** 
  16.  *  
  17.  * 
  18.  * Description: 这个类定义并且运行作业 
  19.  * 
  20.  * @author charles.wang 
  21.  * @created May 24, 2012 5:29:12 PM 
  22.  * 
  23.  */ 
  24.  
  25. public class MaxTemperature { 
  26.  
  27.     /** 
  28.      * @param args 
  29.      */ 
  30.     public static void main(String[] args) throws Exception{ 
  31.         // TODO Auto-generated method stub 
  32.  
  33.          
  34.         if (args.length !=2){ 
  35.             System.err.println("Usage: MaxTemperature <input path> <output path>"); 
  36.             System.exit(-1); 
  37.         } 
  38.          
  39.         //创建一个Map-Reduce的作业 
  40.         Configuration conf = new Configuration(); 
  41.         conf.set("hadoop.job.ugi""hadoop-user,hadoop-user"); 
  42.          
  43.         Job job = new Job(conf,"Get Maximum Weather Information! ^_^"); 
  44.          
  45.         //设定作业的启动类/  
  46.         job.setJarByClass(MaxTemperature.class); 
  47.          
  48.         //解析输入和输出参数,分别作为作业的输入和输出,都是文件 
  49.         FileInputFormat.addInputPath(job, new Path(args[0])); 
  50.         FileOutputFormat.setOutputPath(job, new Path(args[1])); 
  51.         
  52.         //配置作业,设定Mapper类,Reducer类 
  53.         job.setMapperClass(MaxTemperatureMapper.class); 
  54.         job.setReducerClass(MaxTemperatureReducer.class); 
  55.         job.setOutputKeyClass(Text.class); 
  56.        job.setOutputValueClass(IntWritable.class); 
  57.          
  58.         System.exit(job.waitForCompletion(true)?0:1); 
  59.         
  60.          
  61.          
  62.          
  63.          
  64.  
  65.     } 
  66.  

 

我们点进去,则可以看到Map-Reduce的更多细节:




本文转自 charles_wang888 51CTO博客,原文链接:http://blog.51cto.com/supercharles888/885536,如需转载请自行联系原作者

目录
相关文章
|
6月前
|
存储 分布式计算 Hadoop
Hadoop数据块分散存储NameNode管理
【4月更文挑战第17天】Hadoop是一个开源的分布式计算框架,依赖HDFS进行分布式存储。文件被分割成数据块分散在DataNode上,NameNode负责元数据管理和协调,确保数据可靠性。NameNode的高可用性配置能防止单点故障,保证系统稳定性。这套机制支持高效、可靠和可扩展的大数据存储与访问。
77 3
|
1月前
|
SQL 分布式计算 Hadoop
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
42 2
|
6月前
|
SQL 分布式计算 Hadoop
hadoop数据查询和分析
【5月更文挑战第9天】
132 1
|
2月前
|
资源调度 分布式计算 Hadoop
使用YARN命令管理Hadoop作业
本文介绍了如何使用YARN命令来管理Hadoop作业,包括查看作业列表、检查作业状态、杀死作业、获取作业日志以及检查节点和队列状态等操作。
51 1
使用YARN命令管理Hadoop作业
|
29天前
|
SQL 分布式计算 大数据
大数据平台的毕业设计01:Hadoop与离线分析
大数据平台的毕业设计01:Hadoop与离线分析
|
6月前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
299 2
|
3月前
|
存储 SQL 分布式计算
Hadoop生态系统概述:构建大数据处理与分析的基石
【8月更文挑战第25天】Hadoop生态系统为大数据处理和分析提供了强大的基础设施和工具集。通过不断扩展和优化其组件和功能,Hadoop将继续在大数据时代发挥重要作用。
|
3月前
|
XML 分布式计算 监控
详细指南:在Hadoop中配置Oozie作业
【8月更文挑战第31天】
64 0
|
4月前
|
分布式计算 Hadoop
Hadoop配置作业使用Combiner
【7月更文挑战第7天】
39 4
|
4月前
|
存储 分布式计算 并行计算
使用Hadoop构建Java大数据分析平台
使用Hadoop构建Java大数据分析平台

相关实验场景

更多
下一篇
无影云桌面