开发者学堂课程【Hadoop 分布式计算框架 MapReduce:自定义 outformat 案例实现】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/94/detail/1543
自定义 outformat 案例实现
一、案例实现
1.编写 FilterMapper 类
防止有重复的数据
2、输入数据
3、自定义一个 OutputFormat 类
Return new(job)
创建
用完一个对象,上传数据,方便之后操作
创建两个文件输出流:atguiguOut、otherOut
1、获取文件系统,获得输出流
2、创建输出到 atguigu.log 的输出
3.创建输出到 other.log 的输出
4、判断key当中是否 atguigu,如果有写到 atguigu.如果没有写出到other.log
5、Atguigu 输出流
6、将自定义的输出格式设置到 job
7、指定一个输出目录
8、防止有重复的数据