[Hadoop In Action]学习笔记-Hadoop中的Streaming

简介:

Hadoop支持非java预言来编写程序,这就会用到Streaming的通用API。

Hadoop Streaming使用流与程序进行交互。从STDIN输入数据,输出到STDOUT。数据必须为文本,而且每一行被视为一条记录。

 

用Streaming处理键-值

默认情况下,Streaming使用制表符分离记录中的键与值。当没有制表符时,整个记录被视为键,而值为空白文本。

Streaming API把reducer输出的每一行用制表符分开,并将键值对送入默认的TextOutputFormat中,即在结果被写入文件之前,默认的重新插入一个制表符




本文转自 virusswb 51CTO博客,原文链接:http://blog.51cto.com/virusswb/838607,如需转载请自行联系原作者

目录
相关文章
|
分布式计算 资源调度 监控
Hadoop学习笔记(四)之YARN
Hadoop学习笔记(四)之YARN
|
存储 分布式计算 资源调度
Hadoop学习笔记(一)
Hadoop学习笔记(一)
|
SQL 分布式计算 并行计算
Hadoop学习笔记(三)之MapReduce
Hadoop学习笔记(三)之MapReduce
|
存储 分布式计算 负载均衡
Hadoop学习笔记(二)之HDFS
Hadoop学习笔记(二)之HDFS
|
分布式计算 Hadoop 数据库
Hadoop学习笔记(HDP)-Part.08 部署Ambari集群
本文为HDP集群部署系列教程第八部分,详细介绍如何通过Ambari搭建HDP集群。涵盖Ambari数据库配置、ambari-server与ambari-agent的安装部署、自动化设置及Web界面登录等步骤,助力用户高效完成集群管理平台搭建。
504 0
|
分布式计算 资源调度 Hadoop
安装hadoop学习笔记
安装hadoop学习笔记
128 0
安装hadoop学习笔记
|
分布式计算 Hadoop 关系型数据库
Hadoop学习笔记(HDP)-Part.10 创建集群
本文为HDP集群部署系列第十篇,详细介绍通过Ambari创建集群的完整流程,包括版本选择、节点配置、服务安装及ZooKeeper核心参数解析,涵盖常用命令与典型问题处理,助力高效搭建稳定大数据环境。
470 0
|
分布式计算 Hadoop 网络安全
Hadoop学习笔记(HDP)-Part.04 基础环境配置
本文为HDP集群部署系列教程,涵盖从环境准备到组件安装的完整流程。包括SSH免密登录、Ansible自动化配置、主机名与hosts设置、基础软件安装、防火墙与SELinux关闭、NTP时钟同步及磁盘分区挂载等关键步骤,为后续Ambari与大数据组件部署打下坚实基础。
241 0
|
存储 机器学习/深度学习 分布式计算
Hadoop学习笔记(HDP)-Part.12 安装HDFS
本系列为HDP大数据平台部署实战指南,涵盖HDFS、YARN、Hive等核心组件安装配置,详解Ambari集群搭建、Kerberos安全认证及高可用实现,助力快速构建企业级大数据环境。
716 0
|
分布式计算 Java Hadoop
Hadoop学习笔记(HDP)-Part.11 安装Kerberos
本文详细介绍HDP集群中Kerberos的安装与配置,涵盖服务端客户端部署、关键配置文件修改、数据库创建、Ambari集成及常用管理命令,助力构建安全认证的大数据环境。
620 0

相关实验场景

更多