集成 Oozie 服务&调度 Mapreduce 程序 | 学习笔记

简介: 快速学习 集成 Oozie 服务&调度 Mapreduce 程序

开发者学堂课程【Hue 大数据可视化终端课程集成 Oozie 服务&调度 Mapreduce 程序学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/719/detail/12855


集成 Oozie 服务&调度 Mapreduce 程序


内容介绍

一、利用 hue 调度 Mapreduce 程序

二、单独提交 Mapreduce 程序


一、利用 hue 调度 Mapreduce 程序

Mapreduce 程序执行时稍微复杂需要配置较多参数,相关输入或者输出的路径、kafkas 的类型等等,具体操作如下。

提交程序存在两种,一种是利用 hue 提交 Mapreduce 程序架包,二是利用 oozie 进行整合。

首先打开浏览器,点击 query 下方的 scheduler 点击 workfllow,创建新的工作流,命名 hue Mapreduce,描述改为itcast。选择节点信息,并选择 Mapreduce 图标,拖住下方。添加 Mapreduce 程序架包,架包路径在 HDFS 上,可将本地 Mapreduce 提交至此。

image.png

选择后不能提交,其中需要很多的参数,比如开启新版本的 API、指定输入或者输出的类、路径,通过 properties 进行添加。

打开配置软件在 hue 下存在 maperduce-oozie-workfollow,其中记录了手动配置 Mapreduce 的所有参数,将参数进行复制。

首先复制启动开启使用新的 API mapredmapper.New -apI 后面为 ture,    注意要心细,之后添加 reduce api 然后 true

image.png

继续指定 MR 当中输出 key 的类型,肯定是和业务相关,mapreduce  .job . output .key .calss 此时输出的均为单词所以为 text 类型。接下来,指定 MR 输出 value 的类型,复制 mapreduce  .job . output .value .calss,输出为单词的次数。接下来指定输入路径 mapreduce.input dir ,这时可以选择直接敲路径,输入/则会展示要填入的,如:/oozie/input。输出则需要添加一个新的路径即可,如;/ozzie/output/666

image.png

指定执行的 map class,使用官方提供的类进行直接复制,自己做的类需要将类换成自己写的全路径。

接下来指定 reduce 运行的 calss,复制。最后进行配置 map task 的个数,可以选择开启或者不开启。

此时可以点击观察是否出错,确认无误后,点击 save 保存,进行提交。即可完成定时调度任务的搭建,可以点击 jobs 观察过程,或者点击 workflows 具体查看调度的情况,如果出错,查看日志,日志是排错的唯一依据。进行刷新,发现工作流成功。

接下来,进行验证,根目录中存在 output6666,双击文件打开,观看结果,可观察执行成功。

image.png


二、单独提交 Mapreduce 程序

另外可单独提交 Mapreduce 程序,与工作流没有关系。不点击调度,点击 Editor 编辑 MR 程序,此方式相当于直接提供一个架包,与调度无关。

image.png

点击 Mapreduce 程序选择架包,参数同上,此时运行相当于通过 Hue 直接使用 Mapreduce 程序进行提交。综上为query Mapreduce 程序提交。参数要根据代码具体情况进行指定。

image.png

目录
打赏
0
0
0
0
127
分享
相关文章
使用Java创建集成JACOB的HTTP服务
本文介绍了如何在Java中创建一个集成JACOB的HTTP服务,使Java应用能够调用Windows的COM组件。文章详细讲解了环境配置、动态加载JACOB DLL、创建HTTP服务器、实现IP白名单及处理HTTP请求的具体步骤,帮助读者实现Java应用与Windows系统的交互。作者拥有23年编程经验,文章来源于稀土掘金。著作权归作者所有,商业转载需授权。
130 2
使用Java创建集成JACOB的HTTP服务
基于MicrometerTracing门面和Zipkin实现集成springcloud2023的服务追踪
Sleuth将会停止维护,Sleuth最新版本也只支持springboot2。作为替代可以使用MicrometerTracing在微服务中作为服务追踪的工具。
250 1
FlowiseAI:34K Star!集成多种模型和100+组件的 LLM 应用低代码开发平台,拖拽组件轻松构建程序
FlowiseAI 是一款开源的低代码工具,通过拖拽可视化组件,用户可以快速构建自定义的 LLM 应用程序,支持多模型集成和记忆功能。
250 14
FlowiseAI:34K Star!集成多种模型和100+组件的 LLM 应用低代码开发平台,拖拽组件轻松构建程序
Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务
Voice-Pro是一款开源的多功能音频处理工具,集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等多种功能。它支持超过100种语言,适用于教育、娱乐和商业等多个领域,为用户提供一站式的音频处理解决方案,极大地提高工作效率和音频处理的便捷性。
302 10
Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务
【三方服务集成】最新版 | 阿里云OSS对象存储服务使用教程(包含OSS工具类优化、自定义阿里云OSS服务starter)
阿里云OSS(Object Storage Service)是一种安全、可靠且成本低廉的云存储服务,支持海量数据存储。用户可通过网络轻松存储和访问各类文件,如文本、图片、音频和视频等。使用OSS后,项目中的文件上传业务无需在服务器本地磁盘存储文件,而是直接上传至OSS,由其管理和保障数据安全。此外,介绍了OSS服务的开通流程、Bucket创建、AccessKey配置及环境变量设置,并提供了Java SDK示例代码,帮助用户快速上手。最后,展示了如何通过自定义starter简化工具类集成,实现便捷的文件上传功能。
1226 7
【三方服务集成】最新版 | 阿里云OSS对象存储服务使用教程(包含OSS工具类优化、自定义阿里云OSS服务starter)
原生鸿蒙应用市场开发者服务的技术解析:从集成到应用发布的完整体验
原生鸿蒙应用市场开发者服务的技术解析:从集成到应用发布的完整体验
Windows Forms应用程序中集成一个ASP.NET API服务
Windows Forms应用程序中集成一个ASP.NET API服务
135 9
一个基于Go程序的持续集成/持续部署(CI/CD)
本教程通过一个简单的Go程序示例,展示了如何使用GitHub Actions实现从代码提交到Kubernetes部署的CI/CD流程。首先创建并版本控制Go项目,接着编写Dockerfile构建镜像,再配置CI/CD流程自动化构建、推送Docker镜像及部署应用。此流程基于GitHub仓库,适用于快速迭代开发。
139 3
创建一个基于Go程序的持续集成/持续部署(CI/CD)流水线
创建一个基于Go程序的持续集成/持续部署(CI/CD)流水线
ToB项目身份认证AD集成(二):快速搞定window server 2003部署AD域服务并支持ssl
本文详细介绍了如何搭建本地AD域控测试环境,包括安装AD域服务、测试LDAP接口及配置LDAPS的过程。通过运行自签名证书生成脚本和手动部署证书,实现安全的SSL连接,适用于ToB项目的身份认证集成。文中还提供了相关系列文章链接,便于读者深入了解AD和LDAP的基础知识。
191 0

热门文章

最新文章