电商项目之 Azkaban 案例(3.X 任务)|学习笔记

简介: 快速学习电商项目之 Azkaban 案例(3.X 任务)

开发者学堂课程【新电商大数据平台2020最新课程电商项目之 Azkaban 案例(3.X 任务)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/640/detail/10511


电商项目之Azkaban案例(3.X任务)

 

上一节讲述了 Azkaban 的使用,包括案例的讲解,同时处理了 shell 中的脚本程度,之前用的都是2.0的版本,也就是没有使用3版本。本节课讲解三版本的使用。

三版本的使用方式和二版本的是一样的提交流程,但是在编写脚本任务的时候,不是原来.脚本文件,而是.flow文件。

之后把模板.project 的文件,进行改名为 mb.project;模板.flow 文件更名为 mb.flow;模板.sh 文件名改为 mb.sh,之后再依次打开。

首先来说明,shell 脚本使用的是 yesterday 类,后期选取时间,打印时间即可,输出前一天的时间即可,如下图。

image.png

或者也可以选择不输出时间,将 yesterday 改为 Azkaban,并且把 yesterday 的所在行删掉,这个就是 shell 脚本。

之后是载 mb.flow 文件进行配置,如果有 emaiil 就可以配置 email,没有就不需要配置。

Nodes,是所写的任务,name 后面是当前任务的名字这个名字可以进行修改,可以改为 Shell2Az,是可以将名字更换的。

类型依旧选择 command,之后 config 里面配置要执行的文件,这里的文件是 mb.sh,是 shell 脚本,前面有四个空格。名字前面的-有两个空格,-和 name 之间还有一个空格,如下图。注意模板一定要按照规定去书写。

image.png

最后一个文件 mb.project 中,是指当天所要进行的任务,现在要执行 azkaban-flow-version:2.0,是 flow 用户,包括之前的文件都是.flow 的形式,这三个文件形式都必须要有。

现在将这个三个文件压缩成压缩包,并将压缩包名字改为 mb.zip,之后上传,载 Azkaban 的网站页面中,找到 upload 的按钮,在上传的文件选择框中找到刚刚桌面上的压缩包,上传即可。

之后会有一个任务,点击 Execute Flow 进行执行,到以下页面后点击允许。

image.png

之后得到允许成功的结果

可以在当前的任务查看执行的结果,如下图,显示有一个命令没找到,但并不影响输出,正常输入没有大的问题是可以的,这样的调动就是搞定的

image.png

如果后面调动 school from 是一样的,将 school from 滚动的命令写进 shell 脚本中。还可以设置定时器,显示当前所执行的任务时区是在上海,下面还有例子是表示设立时间的数据,是按小时的,对外服务改了,可能就会改变。

默认是每一小时执行一次,这些都是可以更换的,这是每分钟的,可以进行修改。

image.png

因为刚刚进行了修改,所以现在是每一分钟。

image.png

这个任务是定时定点的跑,不管是写 swap 任务还是 hell 的文件,都会在这个 azkaban 的文件上面设置好,跑定制好的程序。

整体来说这个是比较方便的,所以在使用的时候可以用这个定时来配置。

在二版本的时候,配置过程不是这样的,没有例子演示,只需要告知程序多久执行一次即可,在这个版本是可选的,比2 版本更要完善。这个 Azkaban 从整体的介绍、安装、到配置、案例分析,从2版本讲述到3版本,整体过程到此为止,这个过程会整理出来。会使用即可,包括特性,定制脚本以及如何设置就可以。

相关文章
|
存储 大数据
亚信AISWare DataOS大数据中台套件介绍03——dataos开发目录配置
DataOS是一款汇总大部分大数据套件的企业型中台,可以满足企业大部分对大数据存储、计算、稽核的需求。但是平台使用体检并不好,所以有条件还是推荐使用阿里云的大数据组件
987 0
|
Web App开发 SQL 资源调度
CDH/CDP中开启kerberos后如何访问HDFS/YARN/HIVESERVER2 等服务的webui
CDH/CDP中开启kerberos后如何访问HDFS/YARN/HIVESERVER2 等服务的webui
|
SQL 存储 关系型数据库
DataX - 全量数据同步工具(2)
DataX - 全量数据同步工具
|
SQL 存储 缓存
Hadoop-Impala优化十大指导原则和最佳实践(二)
简介: 以下是性能准则和最佳做法。您可以使用在规划过程中实验,和hadoop集群一起进行impala的性能调整。所有这些信息也可在文档的其他地方更详细的impala文档;以下是优化的方法措施,强调优化调优技术提供最高的投资回报
1746 0
|
Web App开发 前端开发 JavaScript
WebKit 入门介绍
WebKit 入门介绍
|
网络协议 网络架构
动态图解 | 9分钟让你明明白白看懂Traceroute(路由追踪)的原理与实现
动态图解 | 9分钟让你明明白白看懂Traceroute(路由追踪)的原理与实现
1837 1
|
数据采集 数据可视化 前端开发
基于python flask的旅游数据大屏实现,有爬虫有数据库
本文介绍了一个基于Python Flask框架开发的旅游数据大屏系统,该系统集成了爬虫技术、数据库存储和ECharts数据可视化,提供了一个全面、实时更新的旅游信息展示平台,旨在提升旅游行业用户体验和决策效率。
244 3
|
数据采集 数据可视化 搜索推荐
Python爬虫技术从去哪儿网获取旅游数据,对攻略进行可视化分析,提供全面的旅游攻略和个性化的出行建议
本文利用Python爬虫技术从去哪儿网获取旅游数据,通过数据处理和可视化分析,提供了全面的旅游攻略和个性化出行建议,同时探讨了热门目的地、出游方式、时间段以及玩法的偏好,为旅游行业和游客提供了有价值的参考信息。
805 9
|
数据采集 数据挖掘 Python
python爬虫去哪儿网上爬取旅游景点14万条,可以做大数据分析的数据基础
本文介绍了使用Python编写的爬虫程序,成功从去哪儿网上爬取了14万条旅游景点信息,为大数据分析提供了数据基础。
882 1
|
SQL 存储 大数据
更改 HIVE 表字段数据类型有哪些注意事项?
更改 HIVE 表字段数据类型有哪些注意事项?