开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第五阶段):网站流量日志分析--工作流调度--预处理调度--功能实现】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/697/detail/12251
网站流量日志分析--工作流调度--预处理调度--功能实现
工作流调度功能实现
操作:
1.把 azkaban 配置及其依赖的资源打成 zip 压缩包。
当我们配置好 azkaban 的 job 信息后,将其打包成 zip 压缩包,进行项目上传。首先选中资源,添加到压缩档。
2.在 azkaban 的 web 页面上创建工程,上传 zip 压缩包。
(1)打开 azkaban 的 web 页面
(2)创建新的 project,描述为 weblog_preprocess,点击创建。
(3)选择 Upload 按钮,选择创建好的压缩包,进行上传。
此时可浏览工程,可看见形成三个明显具有依赖关系的进程。
此程序是否按照设定关系来执行,需要我们进行验证。此时我们选择 input 路径下进行验证。
(1)找到参考资料中埋点采集文件夹内的数据,将数据上传到路径下。
(2)打入代码。数据上传到路径下,此步骤保证我们预处理路径下有数据。
3.上传压缩包后,在 azkaban 上可以进行两种选择:立即执行或配置定时执行计划。
(1)回到 azkaban web 页面,选择 execute 按钮,立即执行。
此时开始进行数据预处理,首先执行 weblog _ preprocess
可打开 yarn 端口: note-1:8088 查看进度。
(2)Pageviews 正在执行,稍等一会,刷新页面查看进度。
(3)所有程序完成。
提醒:
如果是显示绿色代表成功,显示红色,说明程序出错,需要打开日志检查问题。翻看日志,打开 Job list,通过时间曲线能精准的告诉我们这三个程序是先后执行的,并可以看到其执行时间。
点击 Details- 可查看具体日志信息,查找出错问题,Yarn 端口查看相关执行日志,查看出错问题,这两种方法都可以选择,进行排错。
调度完成后,查看调度处理正确与否,来到页面上查看,首先在页面上进行刷新。
先验证 preprocess 。
(1)点击 preprocess
(2)下载文件并查看代码是否正确
可见代码正确。pageviews 和 visits 可以自己进行验证。
这就完成了我们数据工作流调度。自己也可再对脚本进行优化,使其更加贴近实战。