网站流量日志分析--工作流调度--预处理调度--功能实现 | 学习笔记

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习网站流量日志分析--工作流调度--预处理调度--功能实现

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第五阶段):网站流量日志分析--工作流调度--预处理调度--功能实现】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/697/detail/12251


网站流量日志分析--工作流调度--预处理调度--功能实现

工作流调度功能实现

操作:

1.把 azkaban 配置及其依赖的资源打成 zip 压缩包。

当我们配置好 azkaban 的 job 信息后,将其打包成 zip 压缩包,进行项目上传。首先选中资源,添加到压缩档。

image.png

2.在 azkaban 的 web 页面上创建工程,上传 zip 压缩包。

(1)打开 azkaban 的 web 页面

(2)创建新的 project,描述为 weblog_preprocess,点击创建。

(3)选择 Upload 按钮,选择创建好的压缩包,进行上传。

此时可浏览工程,可看见形成三个明显具有依赖关系的进程。

image.png

此程序是否按照设定关系来执行,需要我们进行验证。此时我们选择 input 路径下进行验证。

image.png

(1)找到参考资料中埋点采集文件夹内的数据,将数据上传到路径下。

(2)打入代码。数据上传到路径下,此步骤保证我们预处理路径下有数据。

3.上传压缩包后,在 azkaban 上可以进行两种选择:立即执行或配置定时执行计划。

(1)回到 azkaban web 页面,选择 execute 按钮,立即执行。

此时开始进行数据预处理,首先执行 weblog _ preprocess

image.png

可打开 yarn 端口: note-1:8088 查看进度。

(2)Pageviews 正在执行,稍等一会,刷新页面查看进度。

(3)所有程序完成。

image.png

提醒:

如果是显示绿色代表成功,显示红色,说明程序出错,需要打开日志检查问题。翻看日志,打开 Job list,通过时间曲线能精准的告诉我们这三个程序是先后执行的,并可以看到其执行时间。

点击 Details- 可查看具体日志信息,查找出错问题,Yarn 端口查看相关执行日志,查看出错问题,这两种方法都可以选择,进行排错。

调度完成后,查看调度处理正确与否,来到页面上查看,首先在页面上进行刷新。

先验证 preprocess 。

(1)点击 preprocess

(2)下载文件并查看代码是否正确

可见代码正确。pageviews 和 visits 可以自己进行验证。

这就完成了我们数据工作流调度。自己也可再对脚本进行优化,使其更加贴近实战。

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
相关文章
|
12月前
|
Rust 前端开发 JavaScript
Tauri 开发实践 — Tauri 日志记录功能开发
本文介绍了如何为 Tauri 应用配置日志记录。Tauri 是一个利用 Web 技术构建桌面应用的框架。文章详细说明了如何在 Rust 和 JavaScript 代码中设置和集成日志记录,并控制日志输出。通过添加 `log` crate 和 Tauri 日志插件,可以轻松实现多平台日志记录,包括控制台输出、Webview 控制台和日志文件。文章还展示了如何调整日志级别以优化输出内容。配置完成后,日志记录功能将显著提升开发体验和程序稳定性。
567 1
Tauri 开发实践 — Tauri 日志记录功能开发
|
7月前
|
存储 SQL Oracle
|
7月前
|
运维 监控 虚拟化
除了实时性能监控,Hyper-V还支持日志记录和警报功能你知道吗?
Hyper-V不仅支持实时性能监控,还具备强大的日志记录和警报功能。通过事件查看器可访问详细的日志文件,涵盖虚拟机管理、配置及Hypervisor事件,帮助故障排查和性能分析。警报功能支持预定义和自定义规则,可通过多种方式通知管理员,确保及时响应问题,保障虚拟化环境的稳定运行。
|
7月前
|
人工智能 运维 监控
一招高效解析 Access Log,轻松应对泼天流量
一招高效解析 Access Log,轻松应对泼天流量
118 0
一招高效解析 Access Log,轻松应对泼天流量
|
10月前
|
监控 安全 Linux
启用Linux防火墙日志记录和分析功能
为iptables启用日志记录对于监控进出流量至关重要
293 1
|
存储 监控 数据可视化
SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
【9月更文挑战第2天】SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
423 9
|
存储 监控 Serverless
函数计算发布功能问题之用户在使用主流函数计算产品的日志服务时可能会遇到使用成本的问题如何解决
函数计算发布功能问题之用户在使用主流函数计算产品的日志服务时可能会遇到使用成本的问题如何解决
136 6
|
12月前
|
监控 网络协议 CDN
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
|
监控 Serverless 开发者
函数计算发布功能问题之查看函数的调用日志的问题如何解决
函数计算发布功能问题之查看函数的调用日志的问题如何解决
110 1
|
Python
Python编程实战:利用闭包与装饰器优化日志记录功能
【7月更文挑战第7天】Python的闭包和装饰器简化了日志记录。通过定义如`log_decorator`的装饰器,可以在不修改原函数代码的情况下添加日志功能。当@log_decorator用于`add(x, y)`函数时,调用时自动记录日志。进一步,`timestamp_log_decorator`展示了如何创建特定功能的装饰器,如添加时间戳。这些技术减少了代码冗余,提高了代码的可维护性。
167 1

热门文章

最新文章