网站流量日志分析-工作流调度-概述含义 | 学习笔记

简介: 快速学习网站流量日志分析-工作流调度-概述含义

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第五阶段):网站流量日志分析-工作流调度-概述含义】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/697/detail/12249


网站流量日志分析-工作流调度-概述含义

内容介绍:

一. 工作流调度

二. 工作流调度实现方式

三. Azkaban 介绍

 

一. 工作流调度

工作流概念:

工作流是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。

在日常工作生活中,我们需要实现某个业务目标,这个目标可以通过不同的步骤完成。

这些步骤中有些是存在着前后依赖关系,有些可以同时执行,但是最终想要完成此目标,需要把前面这些步骤按部就班的全部完成,才能达到这个目标。

在这样的背景下,工作流调度的目的就是实现利用计算机系统,自动地按照我们设定的规则完成某件事。

做某件事如果有三个步骤,使其按照预定规则自动传递文档,信息或者业务,这背后包含的就是工作流的相关知识。

以大数据项目来说,离线或者实时的分析系统通常都是由数据的采集、数据的预处理、数据的分析、数据展示等模块组成。模块的内部和外部,都存在时间上先后依赖关系并且周期性重复执行。

为了降低我们的工作量,需要工作流调度系统自动为我们完成一些业务目标,工作流调度就在这种情况下产生。

实现工作流调度,背后两层关系很重要,一是依赖,二是周期性。依赖意味着做某件事时必须先完成某个步骤再进行下一步,不能同时执行;周期性是指能够实现重复执行。

 

二.工作流调度实现方式

目前企业中工作流调度有两种实现方式:

1.简单的任务调度

如果我们的需求简单,可以选择使用 Linux 的 crontab 来定义调度,crontab 可控制分钟级别,需要配合相关的 shell 脚本执行。

缺点:无法设置依赖复杂的的任务调度。

2.复杂的任务调度

企业有两种选择:

第一.比较强大的公司可自主开发工作流调系统。

第二.没有很多精力和成本的公司可选择使用开源免费的调度系统。比如: azkaban, Apache Ooize,  Zeus 等。

其中知名度最高的是 Apache Ooize,但其最大弊端是配置工作流的过程需要编写大量的 XML 配置,代码复杂度较高,且不易于二次开发。

此外还有一个来自于阿里巴巴开发的,非常轻量级,很方便的工作流调度系统azkaban,也可完成调度。

 

三.Azkaban 介绍

Azkaban 是由领英公司推出的一个批量工作流任务调动器。最大优点是 Azkaban 提供一个易于使用的 web 用户界面,可以在页面上直接进行操作;

第二是其配置极其简单,原因是其使用 job 配置,核心工作直接在 job 中编写即可。

以上就是工作流调度概述和含义。

如果没有复杂的需求,想要自己每天手动执行且确保安全,可自己手动定闹钟来执行;更方便的是可编写脚本,测试之后再配合这些工作流调度软件,不管是简单还是复杂的事务,都可以帮我们极大的减少工作量,达到周期性重复性的工作流调度的实现。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
3天前
|
分布式计算 DataWorks 关系型数据库
DataWorks操作报错合集之在DataWorks中设置了一个任务节点的调度时间,并将其发布到生产环境,但到了指定时间(例如17:30)却没有产生运行实例和相关日志如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
18 0
|
2月前
|
分布式计算 DataWorks 调度
DataWorks常见问题之设置好调度时间的任务运行后查看运行日志报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
42 0
|
4月前
|
小程序 Linux 数据安全/隐私保护
Linux学习笔记十六:日志管理
Linux学习笔记十六:日志管理
|
4月前
|
监控 安全 前端开发
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
41 0
|
6月前
|
Java
JVM学习笔记-如何在IDEA打印JVM的GC日志信息
若要在Idea上打印JVM相应GC日志,其实只需在Run/Debug Configurations上进行设置即可。
66 0
|
7月前
|
缓存 NoSQL Redis
Redis学习笔记-AOF日志&重写机制
Redis学习笔记-AOF日志&重写机制
84 0
|
7月前
|
NoSQL Redis
Redis学习笔记-AOF 日志和 RDB快照
Redis学习笔记-AOF 日志和 RDB快照
65 0
|
7月前
|
SQL 存储 关系型数据库
MySQL学习笔记-redo log 和 binlog&两阶段提交
MySQL学习笔记-redo log 和 binlog&两阶段提交
62 0
|
7月前
|
关系型数据库 MySQL 数据库
MySQL学习笔记-change buffer 和 redo log
MySQL学习笔记-change buffer 和 redo log
82 0
|
7月前
|
存储 关系型数据库 MySQL
MySQL学习笔记-日志和索引相关问题小结
MySQL学习笔记-日志和索引相关问题小结
41 0