Hadoop概念学习系列之Hadoop Streaming（二十三）-阿里云开发者社区

Hadoop概念学习系列之Hadoop Streaming（二十三）

2017-11-22 1595

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

Streaming的原理:

　　是用Java实现一个包装用户程序的MapReduce程序，该程序负责调用MapReduce Java接口获取key/value对输入，创建一个新的进程启动包装的用户程序，将数据通过管道传递给包装的用户程序处理，然后调用MapReduce Java接口将用户程序的输出切分成key/value对输出。

Streaming优点：

1)开发效率高，便于移植只要按照标准输入输出格式进行编程，就可以满足hadoop要求。因此单机程序稍加改动就可以在集群上进行使用。同样便于测试只要按照 cat input | mapper | sort | reducer > output 进行单机测试即可。如果单机测试通过，大多数情况是可以在集群上成功运行的，只要控制好内存就好了。

2)提高程序效率。有些程序对内存要求较高，如果用java控制内存毕竟不如C/C++。

Streaming不足：

1)Hadoop Streaming默认只能处理文本数据，无法直接对二进制数据进行处理

2)Streaming中的mapper和reducer默认只能向标准输出写数据，不能方便地处理多路输出。

Streaming编程接口参数

Streaming编程接口默认有很多参数，这些参数的作用其实和我们用Java 开发MapReduce里面的驱动类有点相似。具体参数介绍：

下面是对各个参数的详细说明：

　　 -input < path>：指定作业输入，path可以是文件或者目录，可以使用*通配符，-input选项可以使用多次指定多个文件或目录作为输入。

　　-output < path>：指定作业输出目录，path必须不存在，而且执行作业的用户必须有创建该目录的权限，-output只能使用一次。

　　-mapper：指定mapper可执行程序或Java类，必须指定且唯一。

　　-reducer：指定reducer可执行程序或Java类，必须指定且唯一。

　　-file, -cacheFile, -cacheArchive：分别用于向计算节点分发本地文件、HDFS文件和HDFS压缩文件。

　　-numReduceTasks：指定reducer的个数，如果设置-numReduceTasks 0或者-reducer NONE则没有reducer程序，mapper的输出直接作为整个作业的输出。

　　-jobconf | -D NAME=VALUE：指定作业参数，NAME是参数名，VALUE是参数值，可以指定的参数参考hadoop-default.xml。

　　-combiner：指定combiner Java类，对应的Java类文件打包成jar文件后用-file分发。

　　-partitioner：指定partitioner Java类，Streaming提供了一些实用的partitioner实现，参考KeyBasedFiledPartitoner和IntHashPartitioner。

　　-inputformat, -outputformat：指定inputformat和outputformat Java类，用于读取输入数据和写入输出数据，分别要实现InputFormat和OutputFormat接口。如果不指定，默认使用TextInputFormat和TextOutputFormat。

　　-cmdenv NAME=VALUE：给mapper和reducer程序传递额外的环境变量，NAME是变量名，VALUE是变量值。

　　-mapdebug, -reducedebug：分别指定mapper和reducer程序失败时运行的debug程序。

　　-verbose：指定输出详细信息，例如分发哪些文件，实际作业配置参数值等，可以用于调试。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5659406.html，如需转载请自行联系原作者

Hadoop概念学习系列之Hadoop Streaming（二十三）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Hadoop概念学习系列之Hadoop Streaming（二十三）

热门文章

最新文章

相关课程

相关电子书

相关实验场景