网站流量日志分析-工作流调度-概述含义 | 学习笔记

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习网站流量日志分析-工作流调度-概述含义

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第五阶段):网站流量日志分析-工作流调度-概述含义】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/697/detail/12249


网站流量日志分析-工作流调度-概述含义

内容介绍:

一. 工作流调度

二. 工作流调度实现方式

三. Azkaban 介绍

 

一. 工作流调度

工作流概念:

工作流是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。

在日常工作生活中,我们需要实现某个业务目标,这个目标可以通过不同的步骤完成。

这些步骤中有些是存在着前后依赖关系,有些可以同时执行,但是最终想要完成此目标,需要把前面这些步骤按部就班的全部完成,才能达到这个目标。

在这样的背景下,工作流调度的目的就是实现利用计算机系统,自动地按照我们设定的规则完成某件事。

做某件事如果有三个步骤,使其按照预定规则自动传递文档,信息或者业务,这背后包含的就是工作流的相关知识。

以大数据项目来说,离线或者实时的分析系统通常都是由数据的采集、数据的预处理、数据的分析、数据展示等模块组成。模块的内部和外部,都存在时间上先后依赖关系并且周期性重复执行。

为了降低我们的工作量,需要工作流调度系统自动为我们完成一些业务目标,工作流调度就在这种情况下产生。

实现工作流调度,背后两层关系很重要,一是依赖,二是周期性。依赖意味着做某件事时必须先完成某个步骤再进行下一步,不能同时执行;周期性是指能够实现重复执行。

 

二.工作流调度实现方式

目前企业中工作流调度有两种实现方式:

1.简单的任务调度

如果我们的需求简单,可以选择使用 Linux 的 crontab 来定义调度,crontab 可控制分钟级别,需要配合相关的 shell 脚本执行。

缺点:无法设置依赖复杂的的任务调度。

2.复杂的任务调度

企业有两种选择:

第一.比较强大的公司可自主开发工作流调系统。

第二.没有很多精力和成本的公司可选择使用开源免费的调度系统。比如: azkaban, Apache Ooize,  Zeus 等。

其中知名度最高的是 Apache Ooize,但其最大弊端是配置工作流的过程需要编写大量的 XML 配置,代码复杂度较高,且不易于二次开发。

此外还有一个来自于阿里巴巴开发的,非常轻量级,很方便的工作流调度系统azkaban,也可完成调度。

 

三.Azkaban 介绍

Azkaban 是由领英公司推出的一个批量工作流任务调动器。最大优点是 Azkaban 提供一个易于使用的 web 用户界面,可以在页面上直接进行操作;

第二是其配置极其简单,原因是其使用 job 配置,核心工作直接在 job 中编写即可。

以上就是工作流调度概述和含义。

如果没有复杂的需求,想要自己每天手动执行且确保安全,可自己手动定闹钟来执行;更方便的是可编写脚本,测试之后再配合这些工作流调度软件,不管是简单还是复杂的事务,都可以帮我们极大的减少工作量,达到周期性重复性的工作流调度的实现。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
1月前
|
PyTorch 算法框架/工具
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
本文介绍了PyTorch中的F.softmax()和F.log_softmax()函数的语法、参数和使用示例,解释了它们在进行归一化处理时的作用和区别。
385 1
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
|
1月前
|
存储 消息中间件 大数据
大数据-68 Kafka 高级特性 物理存储 日志存储概述
大数据-68 Kafka 高级特性 物理存储 日志存储概述
26 1
|
1月前
|
数据可视化
Tensorboard可视化学习笔记(一):如何可视化通过网页查看log日志
关于如何使用TensorBoard进行数据可视化的教程,包括TensorBoard的安装、配置环境变量、将数据写入TensorBoard、启动TensorBoard以及如何通过网页查看日志文件。
197 0
|
3月前
|
jenkins 持续交付
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
|
1月前
|
监控 网络协议 CDN
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
|
6月前
|
分布式计算 DataWorks 关系型数据库
DataWorks操作报错合集之在DataWorks中设置了一个任务节点的调度时间,并将其发布到生产环境,但到了指定时间(例如17:30)却没有产生运行实例和相关日志如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
5月前
|
存储 Java 关系型数据库
基于JSP的九宫格日志网站
基于JSP的九宫格日志网站
|
5月前
|
JSON 中间件 数据格式
Gin框架学习笔记(六)——gin中的日志使用
Gin框架学习笔记(六)——gin中的日志使用
172 0
|
6月前
|
安全 Linux 调度
【后台开发】TinyWebser学习笔记(4)定时器、日志系统(单例模式)、封装互斥锁信号量
【后台开发】TinyWebser学习笔记(4)定时器、日志系统(单例模式)、封装互斥锁信号量
38 1
|
6月前
|
存储 弹性计算 监控
日志服务SLS最佳实践:通过SLS数据加工从VPC flowlog中过滤出跨region CEN流量
本文就通过一个客户的实际案例开介绍如何使用在无法直接开启CEN flowlog的情况下,使用SLS的数据加工能力,从VPC flowlog的数据中过滤出客户需要的流量日志出来。
135 0
日志服务SLS最佳实践:通过SLS数据加工从VPC flowlog中过滤出跨region CEN流量