开发者社区 问答 正文

请教on yarn per job 作业如何采集日志进行监控方案

原本作业基本处于半裸奔的状态,最近线上出了一次小事故后,在考虑如何实时采集作业日志或者metric再配置告警。

网上初步搜了一下,好像就是prometheus+grafana或者elk。

请教各位大佬的项目目前都是用什么方式,我们小公司就我一个人搞flink,半路出家水平也有限,请大佬们推荐个易维护坑少点的方式?谢谢。*来自志愿者整理的flink邮件归档

展开
收起
EXCEED 2021-12-02 15:02:06 465 分享 版权
阿里云 AI 助理回答

面对您的需求,实时采集作业日志或metrics并配置告警,Prometheus + Grafana 和 ELK Stack(Elasticsearch、Logstash、Kibana)是两个非常流行的解决方案。考虑到您希望选择一个易维护且坑少的方案,我会基于阿里云的产品生态为您推荐一个适合小团队使用的方案。

阿里云SLS(Log Service)

对于小公司或者个人开发者来说,阿里云的日志服务(SLS)是一个非常不错的选择。它集成了日志采集、存储、查询分析、可视化和告警等功能于一体,特别适合于监控、故障排查和业务分析等场景。相比于自建ELK Stack或Prometheus+Grafana,SLS的优势在于:

  1. 低门槛与易用性:SLS提供简单易用的Web界面进行日志配置、查询和分析,无需复杂的运维工作。
  2. 开箱即用的监控与告警:内置丰富的监控指标和灵活的告警规则设置,可以快速针对Flink作业的运行状态设置告警。
  3. 成本效益:按量付费,对于小规模使用非常友好,避免了自建系统初期的硬件投入和运维成本。
  4. 集成能力:支持与阿里云其他服务如ARMS(应用实时监控服务)、EMR(Elastic MapReduce)等无缝集成,便于扩展监控和分析能力。
  5. 自动化的日志采集:提供了多种日志采集方式,包括Java SDK、Logtail(专为日志采集设计的轻量级Agent),能够轻松对接Flink作业输出的日志或Metrics。

实现步骤简述

  1. 部署Logtail:在运行Flink任务的节点上安装Logtail,配置其收集Flink作业的日志和Metrics输出。
  2. 创建Logstore:在SLS控制台创建Logstore用于存储Flink相关的日志数据。
  3. 配置日志解析:根据日志格式配置解析规则,以便于后续查询和分析。
  4. 设置监控与告警:利用SLS的监控功能,根据日志内容或预定义的Metrics设置告警规则。
  5. 可视化展示:使用SLS自带的图表功能或集成到DataV、Grafana等工具中,实现数据可视化。

综上所述,阿里云SLS不仅能满足您对日志和Metrics的实时采集、存储、分析及告警的需求,而且由于其高度集成和易用性,非常适合资源有限的小团队使用。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答