集成 Oozie 服务&调度 Mapreduce 程序 | 学习笔记

简介: 快速学习 集成 Oozie 服务&调度 Mapreduce 程序

开发者学堂课程【Hue 大数据可视化终端课程集成 Oozie 服务&调度 Mapreduce 程序学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/719/detail/12855


集成 Oozie 服务&调度 Mapreduce 程序


内容介绍

一、利用 hue 调度 Mapreduce 程序

二、单独提交 Mapreduce 程序


一、利用 hue 调度 Mapreduce 程序

Mapreduce 程序执行时稍微复杂需要配置较多参数,相关输入或者输出的路径、kafkas 的类型等等,具体操作如下。

提交程序存在两种,一种是利用 hue 提交 Mapreduce 程序架包,二是利用 oozie 进行整合。

首先打开浏览器,点击 query 下方的 scheduler 点击 workfllow,创建新的工作流,命名 hue Mapreduce,描述改为itcast。选择节点信息,并选择 Mapreduce 图标,拖住下方。添加 Mapreduce 程序架包,架包路径在 HDFS 上,可将本地 Mapreduce 提交至此。

image.png

选择后不能提交,其中需要很多的参数,比如开启新版本的 API、指定输入或者输出的类、路径,通过 properties 进行添加。

打开配置软件在 hue 下存在 maperduce-oozie-workfollow,其中记录了手动配置 Mapreduce 的所有参数,将参数进行复制。

首先复制启动开启使用新的 API mapredmapper.New -apI 后面为 ture,    注意要心细,之后添加 reduce api 然后 true

image.png

继续指定 MR 当中输出 key 的类型,肯定是和业务相关,mapreduce  .job . output .key .calss 此时输出的均为单词所以为 text 类型。接下来,指定 MR 输出 value 的类型,复制 mapreduce  .job . output .value .calss,输出为单词的次数。接下来指定输入路径 mapreduce.input dir ,这时可以选择直接敲路径,输入/则会展示要填入的,如:/oozie/input。输出则需要添加一个新的路径即可,如;/ozzie/output/666

image.png

指定执行的 map class,使用官方提供的类进行直接复制,自己做的类需要将类换成自己写的全路径。

接下来指定 reduce 运行的 calss,复制。最后进行配置 map task 的个数,可以选择开启或者不开启。

此时可以点击观察是否出错,确认无误后,点击 save 保存,进行提交。即可完成定时调度任务的搭建,可以点击 jobs 观察过程,或者点击 workflows 具体查看调度的情况,如果出错,查看日志,日志是排错的唯一依据。进行刷新,发现工作流成功。

接下来,进行验证,根目录中存在 output6666,双击文件打开,观看结果,可观察执行成功。

image.png


二、单独提交 Mapreduce 程序

另外可单独提交 Mapreduce 程序,与工作流没有关系。不点击调度,点击 Editor 编辑 MR 程序,此方式相当于直接提供一个架包,与调度无关。

image.png

点击 Mapreduce 程序选择架包,参数同上,此时运行相当于通过 Hue 直接使用 Mapreduce 程序进行提交。综上为query Mapreduce 程序提交。参数要根据代码具体情况进行指定。

image.png

相关文章
|
1月前
|
前端开发 关系型数据库 MySQL
IDEA集成Docker插件打包服务镜像与运行【附Docker命令汇总】
IDEA集成Docker插件打包服务镜像与运行【附Docker命令汇总】
|
1月前
|
NoSQL Java Redis
小白版的springboot中集成mqtt服务(超级无敌详细),实现不了掐我头!!!
小白版的springboot中集成mqtt服务(超级无敌详细),实现不了掐我头!!!
272 1
|
1月前
|
SpringCloudAlibaba Dubbo Java
SpringCloud Alibaba集成Dubbo实现远程服务间调用
SpringCloud Alibaba集成Dubbo实现远程服务间调用
|
3月前
|
弹性计算 jenkins 持续交付
ECS热门应用 | 搭建个人版持续集成服务
基于ECS云服务器搭建Jenkins,快速实现灵活、可扩展的持续集成服务。
94346 7
|
18天前
|
消息中间件 Java Kafka
Springboot集成高低版本kafka
Springboot集成高低版本kafka
|
24天前
|
NoSQL Java Redis
SpringBoot集成Redis解决表单重复提交接口幂等(亲测可用)
SpringBoot集成Redis解决表单重复提交接口幂等(亲测可用)
275 0
|
29天前
|
NoSQL Java Redis
SpringBoot集成Redis
SpringBoot集成Redis
420 0
|
1月前
|
XML Java 关系型数据库
【SpringBoot系列】SpringBoot集成Fast Mybatis
【SpringBoot系列】SpringBoot集成Fast Mybatis
|
2月前
|
Java
【极问系列】springBoot集成elasticsearch出现Unable to parse response body for Response
【极问系列】springBoot集成elasticsearch出现Unable to parse response body for Response
|
1天前
|
Java Docker 容器
SpringBoot项目集成XXL-job
SpringBoot项目集成XXL-job