Apache Oozie- 实战操作一集成 hue& 调度 Sshel 程序|学习笔记

简介: 快速学习 Apache Oozie- 实战操作一集成 hue& 调度 Sshel 程序

开发者学堂课程【Oozie 知识精讲与实战演练Apache Oozie- 实战操作一集成hue& 调度 Sshel 程序】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/716/detail/12792


Apache Oozie-- 实战操作--集成 hue& 调度 shell 程序


内容介绍

一、Hue 和 Oozie 的整合


一、Hue 和 Oozie 的整合

Oozie 作为一款调度软件,它本身的开发并不友好,不管是调度 Hive 程序还是 amp 程序都要编写大量的配置文件,再进行上传提交才能完成定时调度执行,非常麻烦。但是当 Oozie 配置上 hue 后,在 hue 上用鼠标拖拽各种图标,就可以完成定时调度。

1.修改 hue 配置文件 hue.ini

打开 hue 文件,修改 liboozie。复制 liboozie,打开 Notepad + +,打开 hue 的编辑文件,Ctrl+F 进行搜索,点击查找下一个,此时便定位到了选项配置的地方。这里需要修改以下几个参数。第一个是 oozie_url,把注释打开,修改端口为 note-1 第二个是 Remote_deployement_dir 即文件路径,上传定时任务时,路经位于 HDFS 上,复制粘贴做指定并把前面注释打开。

2.修改 oozie 配置文件

搜索 oozieCtrl+F 进行搜索,这里关于 oozie 的单支有很多,必须找到 oozie 旁边有中括号的。查找完毕后,把 oozie_jobs_count=100enable_cron_scheduling=trueenable_document_action=trueenable_impala_action=false打开,然后 Ctrl+S 进行保存。修改 filebrowser。filebrowser 被称为文件浏览,这里的配置跟 oozie 没有太大的关系,这里主要开启 HDFS 视区,浏览的时候有没有上传和下载的按钮。hue 去访问 HDFS 原先没有按钮,但是配置后,便会显示按钮。之后进行相关配置,比如本地开发出一个 hive 脚本,需要用 hue 来调度,直接点击按钮上传便可以选择它,非常方便。搜索 filebrowser,打开 archive_upload_tempdir=/tmpshow_download_button=trueenable_extract_uploaded_archive=trueCtrl+S 进行保存。

启动 hue 进程

image.png

启动后,把 hue 服务进行重启,因为我们修改了配置文件。

3.使用 hue 配置 oozie 调度

打开浏览器,进行刷新加载,加载完后,点击 Query 下的Scheduler 发现这里有三个选项,Workflowoozie 当中的普通的工作流程,Schedule 是定时调度,Bundle 是批处理,可以批次绑定 Schedule。以 Workflow 为例,点开后发现它的界面非常友好,因为各种 actions 的节点都帮我们配置成了鼠标。只需要选择所需执行的按钮,把他拖拽到下面就可以。

4.利用 hue 调度 shell 脚本

HDFS 上创建一个 shell 脚本程序文件,

图片2.png

user rootoozie works 里创建一个新的文件夹叫 oozie _hue 并打开它。

图片3.png

然后在这里面创建一个新的文件叫 hello_hue.sh。这个文件现在是一个空文件,打开并对其进行编辑。

图片4.png

5.准备好后创建工作流程。

点击 Query 下的 schedule,创建一个 workflow。创建好后给工作流程取一个名字。然后执行 shell 脚本,把图标拖拽,添加 shell 脚本的路径。

图片5.png

点击 Files,选择文件的地方。点击保存。保存后发现立即出现了一个叫 submit 的按钮,

图片6.png

说明工作流程已经编辑好了。点击 submit 按钮进行提交。

6.修改工作流程

提交后刷新一下界面。发现现在正在运行一个程序

这里显示它已经结束了,但是点击 Workflows 后发现这个 shell killed 了,说明它失败了。查看失败的原因,点击 Tasks,错误信息显示文件不存在。但是刚才指定了 shell 脚本的路径,提示找不到路径,是因为工作路径指定时多指定了一次。因此需要修改。点击 Query 下的 Schedule Workflow,再点击右上角三个点的按钮下的 Workflows

图片7.png

找到之前编辑的工作流程,双击打开它,点击右上角的 Edit 按钮,点击右上角三个点的按钮里的 Settings

图片8.png

修改 Workspace,把路径返回到根目录,选择 Select this folder。最后进行保存提交。执行完后发现运行成功。

图片9.png

具体 oozie xml 文件是谁编写的,可以打开 properties,和 xml 文件,里面有开始节点,执行的文件叫 hello_hue.sh

相关文章
|
3月前
|
缓存 监控 安全
通义大模型与现有企业系统集成实战《CRM案例分析与安全最佳实践》
本文档详细介绍了基于通义大模型的CRM系统集成架构设计与优化实践。涵盖混合部署架构演进(新增向量缓存、双通道同步)、性能基准测试对比、客户意图分析模块、商机预测系统等核心功能实现。同时,深入探讨了安全防护体系、三级缓存架构、请求批处理优化及故障处理机制,并展示了实时客户画像生成和动态提示词工程。通过实施,显著提升客服响应速度(425%)、商机识别准确率(37%)及客户满意度(15%)。最后,规划了技术演进路线图,从单点集成迈向自主优化阶段,推动业务效率与价值持续增长。
139 7
|
4月前
|
人工智能 安全 Shell
Jupyter MCP服务器部署实战:AI模型与Python环境无缝集成教程
Jupyter MCP服务器基于模型上下文协议(MCP),实现大型语言模型与Jupyter环境的无缝集成。它通过标准化接口,让AI模型安全访问和操作Jupyter核心组件,如内核、文件系统和终端。本文深入解析其技术架构、功能特性及部署方法。MCP服务器解决了传统AI模型缺乏实时上下文感知的问题,支持代码执行、变量状态获取、文件管理等功能,提升编程效率。同时,严格的权限控制确保了安全性。作为智能化交互工具,Jupyter MCP为动态计算环境与AI模型之间搭建了高效桥梁。
303 2
Jupyter MCP服务器部署实战:AI模型与Python环境无缝集成教程
|
4月前
|
JSON JavaScript API
MCP 实战:用配置与真实代码玩转 GitHub 集成
MCP 实战:用配置与真实代码玩转 GitHub 集成
1157 4
|
10月前
|
存储 监控 Devops
DevOps实践:持续集成/持续部署(CI/CD)的实战指南
DevOps实践:持续集成/持续部署(CI/CD)的实战指南
|
9月前
|
存储 JavaScript 开发工具
基于HarmonyOS 5.0(NEXT)与SpringCloud架构的跨平台应用开发与服务集成研究【实战】
本次的.HarmonyOS Next ,ArkTS语言,HarmonyOS的元服务和DevEco Studio 开发工具,为开发者提供了构建现代化、轻量化、高性能应用的便捷方式。这些技术和工具将帮助开发者更好地适应未来的智能设备和服务提供方式。
基于HarmonyOS 5.0(NEXT)与SpringCloud架构的跨平台应用开发与服务集成研究【实战】
|
8月前
|
存储 缓存 Java
Java中的分布式缓存与Memcached集成实战
通过在Java项目中集成Memcached,可以显著提升系统的性能和响应速度。合理的缓存策略、分布式架构设计和异常处理机制是实现高效缓存的关键。希望本文提供的实战示例和优化建议能够帮助开发者更好地应用Memcached,实现高性能的分布式缓存解决方案。
150 9
|
10月前
|
消息中间件 Java Kafka
什么是Apache Kafka?如何将其与Spring Boot集成?
什么是Apache Kafka?如何将其与Spring Boot集成?
516 5
|
10月前
|
消息中间件 Java Kafka
Spring Boot 与 Apache Kafka 集成详解:构建高效消息驱动应用
Spring Boot 与 Apache Kafka 集成详解:构建高效消息驱动应用
270 1
|
9月前
|
存储 人工智能 大数据
The Past, Present and Future of Apache Flink
本文整理自阿里云开源大数据负责人王峰(莫问)在 Flink Forward Asia 2024 上海站主论坛开场的分享,今年正值 Flink 开源项目诞生的第 10 周年,借此时机,王峰回顾了 Flink 在过去 10 年的发展历程以及 Flink社区当前最新的技术成果,最后展望下一个十年 Flink 路向何方。
666 33
The Past, Present and Future of Apache Flink

热门文章

最新文章

推荐镜像

更多