大数据与机器学习：实践方法与行业案例.2.5　监控和预警-阿里云开发者社区

大数据与机器学习：实践方法与行业案例.2.5　监控和预警

2017-05-02 3115

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

2.5　监控和预警

监控和预警存在于数据闭环的各个阶段，在所有的自动执行环节均可以植入监控和预警点。前期对ETL所做的规范，现在是体现其应用价值的时候了。可以利用这些满足规范的日志记录进行自动监控和预警。

如果有专职的运维人员负责作业的运行监控，使用专门的监控工具，运维工程师可以监控各个服务器的运行信息，并通过监控工具发送预警邮件。

如果仅仅是ETL工程师负责监控自己的ETL作业，那么可以使用BI工具进行监控和预警。

2.5.1　使用监控工具进行监控

有众多的开源监控工具可供使用，如Zipkin、Ramona、zabbix、Ganglia、Nagios等，这些监控工具提供了许多定制的监控和预警服务，但它们通常比较偏于底层日志，如Zabbix主要用来监控CPU负荷、内存使用、磁盘使用、网络状况、端口监视和日志监视。这些监控信息对于保证数据环境的健康运行至关重要，可以根据CPU负荷、内存和磁盘的使用情况进行预警，比如在CPU负荷持续达到90%时进行预警，或者在磁盘使用90%时进行预警等。

监控工具专注于系统可用性方面的监控，如果要专注于ETL作业的运行情况，那么可以使用BI报表工具进行监控。

2.5.2　使用BI工具进行监控

BI（business intelligence）工具是企业环境中广泛使用的数据可视化工具，它可提供丰富的数据可视化能力，同时可提供短信、邮件等通知服务。

鉴于数据的监控和预警本身是基于日志信息的，因此可以使用BI工具丰富的展示和通知服务进行数据系统的监控和预警。

基于图2-12中的ETL作业日志表，BI工具可以定制图形化监控报表，并以Web页面的形式展示出来。作业负责人或者运营人员可以登录该BI系统，查看监控相应的页面，便可以监控作业是否正常。

例如，近期表现抢眼的BI工具Tableau，可以设置每15分钟扫描一下ETL作业日志表，一旦发现有作业异常，就自动发送邮件通知作业负责人。

通过BI工具实现ETL作业的监控和预警，这种方式可以推广到整个数据闭环，其图形化的界面让监控变得简单明了。

大数据与机器学习：实践方法与行业案例.2.5　监控和预警

华章出版社

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

大数据与机器学习：实践方法与行业案例.2.5 监控和预警

华章出版社

热门文章

最新文章

相关课程

相关电子书

大数据与机器学习：实践方法与行业案例.2.5　监控和预警