集成 Oozie 服务&调度 Mapreduce 程序 | 学习笔记

简介: 快速学习 集成 Oozie 服务&调度 Mapreduce 程序

开发者学堂课程【Hue 大数据可视化终端课程集成 Oozie 服务&调度 Mapreduce 程序学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/719/detail/12855


集成 Oozie 服务&调度 Mapreduce 程序


内容介绍

一、利用 hue 调度 Mapreduce 程序

二、单独提交 Mapreduce 程序


一、利用 hue 调度 Mapreduce 程序

Mapreduce 程序执行时稍微复杂需要配置较多参数,相关输入或者输出的路径、kafkas 的类型等等,具体操作如下。

提交程序存在两种,一种是利用 hue 提交 Mapreduce 程序架包,二是利用 oozie 进行整合。

首先打开浏览器,点击 query 下方的 scheduler 点击 workfllow,创建新的工作流,命名 hue Mapreduce,描述改为itcast。选择节点信息,并选择 Mapreduce 图标,拖住下方。添加 Mapreduce 程序架包,架包路径在 HDFS 上,可将本地 Mapreduce 提交至此。

image.png

选择后不能提交,其中需要很多的参数,比如开启新版本的 API、指定输入或者输出的类、路径,通过 properties 进行添加。

打开配置软件在 hue 下存在 maperduce-oozie-workfollow,其中记录了手动配置 Mapreduce 的所有参数,将参数进行复制。

首先复制启动开启使用新的 API mapredmapper.New -apI 后面为 ture,    注意要心细,之后添加 reduce api 然后 true

image.png

继续指定 MR 当中输出 key 的类型,肯定是和业务相关,mapreduce  .job . output .key .calss 此时输出的均为单词所以为 text 类型。接下来,指定 MR 输出 value 的类型,复制 mapreduce  .job . output .value .calss,输出为单词的次数。接下来指定输入路径 mapreduce.input dir ,这时可以选择直接敲路径,输入/则会展示要填入的,如:/oozie/input。输出则需要添加一个新的路径即可,如;/ozzie/output/666

image.png

指定执行的 map class,使用官方提供的类进行直接复制,自己做的类需要将类换成自己写的全路径。

接下来指定 reduce 运行的 calss,复制。最后进行配置 map task 的个数,可以选择开启或者不开启。

此时可以点击观察是否出错,确认无误后,点击 save 保存,进行提交。即可完成定时调度任务的搭建,可以点击 jobs 观察过程,或者点击 workflows 具体查看调度的情况,如果出错,查看日志,日志是排错的唯一依据。进行刷新,发现工作流成功。

接下来,进行验证,根目录中存在 output6666,双击文件打开,观看结果,可观察执行成功。

image.png


二、单独提交 Mapreduce 程序

另外可单独提交 Mapreduce 程序,与工作流没有关系。不点击调度,点击 Editor 编辑 MR 程序,此方式相当于直接提供一个架包,与调度无关。

image.png

点击 Mapreduce 程序选择架包,参数同上,此时运行相当于通过 Hue 直接使用 Mapreduce 程序进行提交。综上为query Mapreduce 程序提交。参数要根据代码具体情况进行指定。

image.png

相关文章
|
6月前
|
人工智能 数据可视化 开发者
FlowiseAI:34K Star!集成多种模型和100+组件的 LLM 应用低代码开发平台,拖拽组件轻松构建程序
FlowiseAI 是一款开源的低代码工具,通过拖拽可视化组件,用户可以快速构建自定义的 LLM 应用程序,支持多模型集成和记忆功能。
453 14
FlowiseAI:34K Star!集成多种模型和100+组件的 LLM 应用低代码开发平台,拖拽组件轻松构建程序
|
11月前
|
资源调度 Java 调度
Spring Cloud Alibaba 集成分布式定时任务调度功能
定时任务在企业应用中至关重要,常用于异步数据处理、自动化运维等场景。在单体应用中,利用Java的`java.util.Timer`或Spring的`@Scheduled`即可轻松实现。然而,进入微服务架构后,任务可能因多节点并发执行而重复。Spring Cloud Alibaba为此发布了Scheduling模块,提供轻量级、高可用的分布式定时任务解决方案,支持防重复执行、分片运行等功能,并可通过`spring-cloud-starter-alibaba-schedulerx`快速集成。用户可选择基于阿里云SchedulerX托管服务或采用本地开源方案(如ShedLock)
265 1
|
12月前
|
资源调度 Java 调度
Spring Cloud Alibaba 集成分布式定时任务调度功能
Spring Cloud Alibaba 发布了 Scheduling 任务调度模块 [#3732]提供了一套开源、轻量级、高可用的定时任务解决方案,帮助您快速开发微服务体系下的分布式定时任务。
15557 90
|
10月前
|
Kubernetes Go 持续交付
一个基于Go程序的持续集成/持续部署(CI/CD)
本教程通过一个简单的Go程序示例,展示了如何使用GitHub Actions实现从代码提交到Kubernetes部署的CI/CD流程。首先创建并版本控制Go项目,接着编写Dockerfile构建镜像,再配置CI/CD流程自动化构建、推送Docker镜像及部署应用。此流程基于GitHub仓库,适用于快速迭代开发。
207 3
|
10月前
|
Kubernetes 持续交付 Go
创建一个基于Go程序的持续集成/持续部署(CI/CD)流水线
创建一个基于Go程序的持续集成/持续部署(CI/CD)流水线
|
9月前
|
存储 缓存 安全
如何使用 PHP 将天气跟踪集成到 Web 应用程序中
如何使用 PHP 将天气跟踪集成到 Web 应用程序中
109 0
|
11月前
|
SQL DataWorks 安全
DataWorks产品使用合集之调度资源组与集成资源内部的实例如何进行共用
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
139 1
|
数据采集 DataWorks 安全
DataWorks产品使用合集之选择独享调度,数据集成里可以使用,但是数据地图里面测试无法通过,是什么原因导致的
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
123 0
DataWorks产品使用合集之选择独享调度,数据集成里可以使用,但是数据地图里面测试无法通过,是什么原因导致的
|
SQL Java 数据库
实时计算 Flink版产品使用问题之Spring Boot集成Flink可以通过什么方式实现通过接口启动和关闭Flink程序
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
11月前
|
开发框架 NoSQL .NET
使用 Asp.net core webapi 集成配置系统,提高程序的灵活和可维护性
使用 Asp.net core webapi 集成配置系统,提高程序的灵活和可维护性
144 0

热门文章

最新文章