多 Job 串联案例完成|学习笔记

简介: 快速学习 多 Job 串联案例完成

开发者学堂课程【Hadoop 企业优化及扩展案例:多 Job 串联案例完成】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/96/detail/1574


多 Job 串联案例完成


目录:

一.写 TwolndexMapper.

二.将 mapper 写入 reducer

三.驱动

 

1. 写 TwolndexMapper.

protected void map( LongWritable key, Text value, Mapper .Context context)throws I0Exception, InterruptedException {atguigu--a.txt

atguigu--b.txt

atguigu--c.txt
// 1获取一行
String line = value.toString();
//  2切割
String[] fields = line.split("--");
//  3封装
Text k = new Text();Text v = new Text();
// 3写出
context.write(key, value);


2. 将 mapper 写入 reducer

public class TwoIndexReducer extends Reducer

@0verrideprotected void reduce(Text key,Iterable values, Context context)

throws I0Exception, InterruptedException f

atguigu --a.txt 3

--b.txt 2

--c.txt 2atguigu c.txt-->2  b.txt-->2  a.txt-->3
// 1拼接字符串
StringBuffer sb = new StringBuffer();for (Text value : values) {  sb. append(value.toString().replace("\t","-->") +"\t");

v.set(sb.toString());
//  2写出
context.write(key, v);

}


3. 驱动

图片26.png

相关文章
|
10天前
|
Java 调度
利用 XXL-JOB 实现灵活控制的分片处理
本文讲述了一种利用 XXL-JOB 来进行分片任务处理的方法,另外加入对执行节点数的灵活控制。
10 2
|
3月前
|
存储 监控 算法
XXL-JOB内部机制大揭秘:让任务调度飞起来
【8月更文挑战第14天】在大数据时代,高效的任务调度系统是支撑业务稳定运行与快速迭代的基石。XXL-JOB,作为一款轻量级、分布式任务调度平台,凭借其灵活的配置、强大的扩展性和高可用特性,在众多任务调度框架中脱颖而出。今天,我们就来深入揭秘XXL-JOB的内部机制,看看它是如何让任务调度“飞起来”的。
173 0
|
6月前
|
分布式计算 监控 Hadoop
Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
257 0
|
6月前
|
机器学习/深度学习 分布式计算 监控
典型的Spark应用实例
典型的Spark应用实例
230 1
|
6月前
|
传感器 JSON Java
流计算中的流式图处理是什么?请解释其作用和常用操作。
流计算中的流式图处理是什么?请解释其作用和常用操作。
56 0
|
分布式计算 大数据 调度
Spark 原理_运行过程_Job 和 Stage 的关系 | 学习笔记
快速学习 Spark 原理_运行过程_Job 和 Stage 的关系
160 0
Spark 原理_运行过程_Job 和 Stage 的关系 | 学习笔记
|
分布式计算 大数据 数据处理
Spark 原理_总体介绍_逻辑执行图 | 学习笔记
快速学习 Spark 原理_总体介绍_逻辑执行图
121 0
Spark 原理_总体介绍_逻辑执行图 | 学习笔记
|
存储 分布式计算 大数据
Spark 原理_物理图_Task 设计 | 学习笔记
快速学习 Spark 原理_物理图_Task 设计
125 0
Spark 原理_物理图_Task 设计 | 学习笔记
|
SQL Java Shell
Apache Oozie- 实战操作一串联任务调度(依赖关系)|学习笔记
快速学习 Apache Oozie- 实战操作一串联任务调度(依赖关系),在实际工作中,可能会存在很多任务模块,这些模块都会存在一定的关系,比如说一件事大概有 ABC 三个模块,在 A 得出的结果作为结果输入,A 传出 B,B 再作为结果传出 C,这样就形成了一个串联任务,在 oozie 当中,配置多个 action, 可以实现多个任务之间的相互依赖关系。 比如说一个简单需求,首先执行一个 shell 程序,shell 执行完之后再执行 MR 程序,最后执行 hive 程序,三者之间形成一个首尾相连的串联,看一下具体怎么操作。
Apache Oozie- 实战操作一串联任务调度(依赖关系)|学习笔记
|
分布式计算 Hadoop 索引
hadoop之多job串联(倒排索引案例)(15)
hadoop之多job串联(倒排索引案例)(15)
hadoop之多job串联(倒排索引案例)(15)