网站流量日志分析--工作流调度--预处理调度--功能实现 | 学习笔记

简介: 快速学习网站流量日志分析--工作流调度--预处理调度--功能实现

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第五阶段):网站流量日志分析--工作流调度--预处理调度--功能实现】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/697/detail/12251


网站流量日志分析--工作流调度--预处理调度--功能实现

工作流调度功能实现

操作:

1.把 azkaban 配置及其依赖的资源打成 zip 压缩包。

当我们配置好 azkaban 的 job 信息后,将其打包成 zip 压缩包,进行项目上传。首先选中资源,添加到压缩档。

image.png

2.在 azkaban 的 web 页面上创建工程,上传 zip 压缩包。

(1)打开 azkaban 的 web 页面

(2)创建新的 project,描述为 weblog_preprocess,点击创建。

(3)选择 Upload 按钮,选择创建好的压缩包,进行上传。

此时可浏览工程,可看见形成三个明显具有依赖关系的进程。

image.png

此程序是否按照设定关系来执行,需要我们进行验证。此时我们选择 input 路径下进行验证。

image.png

(1)找到参考资料中埋点采集文件夹内的数据,将数据上传到路径下。

(2)打入代码。数据上传到路径下,此步骤保证我们预处理路径下有数据。

3.上传压缩包后,在 azkaban 上可以进行两种选择:立即执行或配置定时执行计划。

(1)回到 azkaban web 页面,选择 execute 按钮,立即执行。

此时开始进行数据预处理,首先执行 weblog _ preprocess

image.png

可打开 yarn 端口: note-1:8088 查看进度。

(2)Pageviews 正在执行,稍等一会,刷新页面查看进度。

(3)所有程序完成。

image.png

提醒:

如果是显示绿色代表成功,显示红色,说明程序出错,需要打开日志检查问题。翻看日志,打开 Job list,通过时间曲线能精准的告诉我们这三个程序是先后执行的,并可以看到其执行时间。

点击 Details- 可查看具体日志信息,查找出错问题,Yarn 端口查看相关执行日志,查看出错问题,这两种方法都可以选择,进行排错。

调度完成后,查看调度处理正确与否,来到页面上查看,首先在页面上进行刷新。

先验证 preprocess 。

(1)点击 preprocess

(2)下载文件并查看代码是否正确

可见代码正确。pageviews 和 visits 可以自己进行验证。

这就完成了我们数据工作流调度。自己也可再对脚本进行优化,使其更加贴近实战。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
3月前
|
存储 Go
Go 浅析主流日志库:从设计层学习如何集成日志轮转与切割功能
本文将探讨几个热门的 go 日志库如 logrus、zap 和官网的 slog,我将分析这些库的的关键设计元素,探讨它们是如何支持日志轮转与切割功能的配置。
103 0
Go 浅析主流日志库:从设计层学习如何集成日志轮转与切割功能
|
6月前
|
C++
C++-实现日志log功能
C++-实现日志log功能
|
1月前
|
分布式计算 DataWorks 调度
DataWorks常见问题之设置好调度时间的任务运行后查看运行日志报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
42 0
|
5月前
|
分布式计算
33 MAPREDUCE的 web日志预处理
33 MAPREDUCE的 web日志预处理
28 0
|
6月前
|
存储 运维 监控
如何在 Spring Boot 中设计和实现业务操作日志功能?
如何在 Spring Boot 中设计和实现业务操作日志功能?
1004 4
|
3月前
|
小程序 Linux 数据安全/隐私保护
Linux学习笔记十六:日志管理
Linux学习笔记十六:日志管理
|
3月前
|
数据可视化 API 开发工具
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK使用相机日志跟踪功能(C++)
Baumer工业相机堡盟工业相机如何通过NEOAPI SDK使用相机日志跟踪功能(C++)
33 0
|
3月前
|
监控 安全 前端开发
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
36 0
|
4月前
|
设计模式 Java 数据库连接
设计模式与面向对象编程:举例说明在Java中应用工厂模式的场景,并编写一个简单的工厂模式实现。编写一个Java装饰器,用于添加日志记录功能到现有方法上。
设计模式与面向对象编程:举例说明在Java中应用工厂模式的场景,并编写一个简单的工厂模式实现。编写一个Java装饰器,用于添加日志记录功能到现有方法上。
23 0
|
5月前
|
JSON 监控 数据可视化
实时日志分析:通过Golang编写实时日志分析模块,加强公司监控管理软件的日志监控功能
在当今数字化时代,企业面临着庞大而复杂的网络环境,对实时监控和日志分析的需求变得日益迫切。本文将介绍如何使用Golang编写实时日志分析模块,以增强公司监控管理软件的日志监控功能。通过本文的指导,你将能够建立一个定制的实时日志分析系统,更好地监测和管理公司的网络活动。
225 0