多 Job 串联案例完成|学习笔记

简介: 快速学习 多 Job 串联案例完成

开发者学堂课程【Hadoop 企业优化及扩展案例:多 Job 串联案例完成】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/96/detail/1574


多 Job 串联案例完成


目录:

一.写 TwolndexMapper.

二.将 mapper 写入 reducer

三.驱动

 

1. 写 TwolndexMapper.

protected void map( LongWritable key, Text value, Mapper .Context context)throws I0Exception, InterruptedException {atguigu--a.txt

atguigu--b.txt

atguigu--c.txt
// 1获取一行
String line = value.toString();
//  2切割
String[] fields = line.split("--");
//  3封装
Text k = new Text();Text v = new Text();
// 3写出
context.write(key, value);


2. 将 mapper 写入 reducer

public class TwoIndexReducer extends Reducer

@0verrideprotected void reduce(Text key,Iterable values, Context context)

throws I0Exception, InterruptedException f

atguigu --a.txt 3

--b.txt 2

--c.txt 2atguigu c.txt-->2  b.txt-->2  a.txt-->3
// 1拼接字符串
StringBuffer sb = new StringBuffer();for (Text value : values) {  sb. append(value.toString().replace("\t","-->") +"\t");

v.set(sb.toString());
//  2写出
context.write(key, v);

}


3. 驱动

图片26.png

相关文章
|
5月前
|
Oracle Java 关系型数据库
Java10 Lambda 设计和实现问题之在双流 concat 的场景中,确保 s1 和 s2 流水线上的算子与 s3 流水线上的算子正确串联起来,如何实现
Java10 Lambda 设计和实现问题之在双流 concat 的场景中,确保 s1 和 s2 流水线上的算子与 s3 流水线上的算子正确串联起来,如何实现
|
5月前
|
存储 监控 算法
XXL-JOB内部机制大揭秘:让任务调度飞起来
【8月更文挑战第14天】在大数据时代,高效的任务调度系统是支撑业务稳定运行与快速迭代的基石。XXL-JOB,作为一款轻量级、分布式任务调度平台,凭借其灵活的配置、强大的扩展性和高可用特性,在众多任务调度框架中脱颖而出。今天,我们就来深入揭秘XXL-JOB的内部机制,看看它是如何让任务调度“飞起来”的。
310 0
|
分布式计算 大数据 数据处理
Spark 原理_总体介绍_逻辑执行图 | 学习笔记
快速学习 Spark 原理_总体介绍_逻辑执行图
128 0
Spark 原理_总体介绍_逻辑执行图 | 学习笔记
|
分布式计算 大数据 调度
Spark 原理_运行过程_Job 和 Stage 的关系 | 学习笔记
快速学习 Spark 原理_运行过程_Job 和 Stage 的关系
174 0
Spark 原理_运行过程_Job 和 Stage 的关系 | 学习笔记
|
存储 分布式计算 大数据
Spark 原理_物理图_Task 设计 | 学习笔记
快速学习 Spark 原理_物理图_Task 设计
130 0
Spark 原理_物理图_Task 设计 | 学习笔记
|
存储 分布式计算 大数据
Spark 原理_运行过程_stage 和 task 的关系 | 学习笔记
快速学习 Spark 原理_运行过程_stage 和 task 的关系
217 0
Spark 原理_运行过程_stage 和 task 的关系 | 学习笔记
|
SQL Java Shell
Apache Oozie- 实战操作一串联任务调度(依赖关系)|学习笔记
快速学习 Apache Oozie- 实战操作一串联任务调度(依赖关系),在实际工作中,可能会存在很多任务模块,这些模块都会存在一定的关系,比如说一件事大概有 ABC 三个模块,在 A 得出的结果作为结果输入,A 传出 B,B 再作为结果传出 C,这样就形成了一个串联任务,在 oozie 当中,配置多个 action, 可以实现多个任务之间的相互依赖关系。 比如说一个简单需求,首先执行一个 shell 程序,shell 执行完之后再执行 MR 程序,最后执行 hive 程序,三者之间形成一个首尾相连的串联,看一下具体怎么操作。
Apache Oozie- 实战操作一串联任务调度(依赖关系)|学习笔记
|
存储 分布式计算 Java
Mapreduce概念及流程介绍
Mapreduce概念及流程介绍
277 0
Mapreduce概念及流程介绍
|
存储 人工智能 弹性计算
实战案例——作业帮 | 学习笔记
快速学习实战案例——作业帮
|
分布式计算 Hadoop 开发者
多 Job 串联案例第一个 Job |学习笔记
快速学习 多 Job 串联案例第一个 Job
131 0
多 Job 串联案例第一个 Job |学习笔记