集成 Oozie 服务&调度 Mapreduce 程序 | 学习笔记

简介: 快速学习 集成 Oozie 服务&调度 Mapreduce 程序

开发者学堂课程【Hue 大数据可视化终端课程集成 Oozie 服务&调度 Mapreduce 程序学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/719/detail/12855


集成 Oozie 服务&调度 Mapreduce 程序


内容介绍

一、利用 hue 调度 Mapreduce 程序

二、单独提交 Mapreduce 程序


一、利用 hue 调度 Mapreduce 程序

Mapreduce 程序执行时稍微复杂需要配置较多参数,相关输入或者输出的路径、kafkas 的类型等等,具体操作如下。

提交程序存在两种,一种是利用 hue 提交 Mapreduce 程序架包,二是利用 oozie 进行整合。

首先打开浏览器,点击 query 下方的 scheduler 点击 workfllow,创建新的工作流,命名 hue Mapreduce,描述改为itcast。选择节点信息,并选择 Mapreduce 图标,拖住下方。添加 Mapreduce 程序架包,架包路径在 HDFS 上,可将本地 Mapreduce 提交至此。

image.png

选择后不能提交,其中需要很多的参数,比如开启新版本的 API、指定输入或者输出的类、路径,通过 properties 进行添加。

打开配置软件在 hue 下存在 maperduce-oozie-workfollow,其中记录了手动配置 Mapreduce 的所有参数,将参数进行复制。

首先复制启动开启使用新的 API mapredmapper.New -apI 后面为 ture,    注意要心细,之后添加 reduce api 然后 true

image.png

继续指定 MR 当中输出 key 的类型,肯定是和业务相关,mapreduce  .job . output .key .calss 此时输出的均为单词所以为 text 类型。接下来,指定 MR 输出 value 的类型,复制 mapreduce  .job . output .value .calss,输出为单词的次数。接下来指定输入路径 mapreduce.input dir ,这时可以选择直接敲路径,输入/则会展示要填入的,如:/oozie/input。输出则需要添加一个新的路径即可,如;/ozzie/output/666

image.png

指定执行的 map class,使用官方提供的类进行直接复制,自己做的类需要将类换成自己写的全路径。

接下来指定 reduce 运行的 calss,复制。最后进行配置 map task 的个数,可以选择开启或者不开启。

此时可以点击观察是否出错,确认无误后,点击 save 保存,进行提交。即可完成定时调度任务的搭建,可以点击 jobs 观察过程,或者点击 workflows 具体查看调度的情况,如果出错,查看日志,日志是排错的唯一依据。进行刷新,发现工作流成功。

接下来,进行验证,根目录中存在 output6666,双击文件打开,观看结果,可观察执行成功。

image.png


二、单独提交 Mapreduce 程序

另外可单独提交 Mapreduce 程序,与工作流没有关系。不点击调度,点击 Editor 编辑 MR 程序,此方式相当于直接提供一个架包,与调度无关。

image.png

点击 Mapreduce 程序选择架包,参数同上,此时运行相当于通过 Hue 直接使用 Mapreduce 程序进行提交。综上为query Mapreduce 程序提交。参数要根据代码具体情况进行指定。

image.png

相关文章
|
资源调度 Java 调度
Spring Cloud Alibaba 集成分布式定时任务调度功能
定时任务在企业应用中至关重要,常用于异步数据处理、自动化运维等场景。在单体应用中,利用Java的`java.util.Timer`或Spring的`@Scheduled`即可轻松实现。然而,进入微服务架构后,任务可能因多节点并发执行而重复。Spring Cloud Alibaba为此发布了Scheduling模块,提供轻量级、高可用的分布式定时任务解决方案,支持防重复执行、分片运行等功能,并可通过`spring-cloud-starter-alibaba-schedulerx`快速集成。用户可选择基于阿里云SchedulerX托管服务或采用本地开源方案(如ShedLock)
295 1
|
资源调度 Java 调度
Spring Cloud Alibaba 集成分布式定时任务调度功能
Spring Cloud Alibaba 发布了 Scheduling 任务调度模块 [#3732]提供了一套开源、轻量级、高可用的定时任务解决方案,帮助您快速开发微服务体系下的分布式定时任务。
15735 117
|
jenkins 持续交付
jenkins学习笔记之六:共享库方式集成构建工具
jenkins学习笔记之六:共享库方式集成构建工具
|
Java jenkins Shell
jenkins学习笔记之五:Maven、Ant、Gradl、Node构建工具集成
jenkins学习笔记之五:Maven、Ant、Gradl、Node构建工具集成
|
SQL DataWorks 安全
DataWorks产品使用合集之调度资源组与集成资源内部的实例如何进行共用
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
153 1
|
分布式计算 资源调度 监控
MapReduce程序中的主要配置参数详解
【8月更文挑战第31天】
662 0
|
jenkins 持续交付
jenkins学习笔记之九:jenkins认证集成github
jenkins学习笔记之九:jenkins认证集成github
|
安全 jenkins 持续交付
jenkins学习笔记之八:jenkins认证集成gitlab
jenkins学习笔记之八:jenkins认证集成gitlab
|
jenkins Devops 持续交付
jenkins学习笔记之七:jenkins集成LDAP用户认证
jenkins学习笔记之七:jenkins集成LDAP用户认证
|
分布式计算 API Go
通过MapReduce降低服务响应时间
通过MapReduce降低服务响应时间

热门文章

最新文章