利用SLS + 云监控来保障稳定性

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
云监控,每月短信1000条
简介: 利用SLS + 云监控来保障稳定性 这些问题都会让我们的业务系统受到影响,甚至影响到用户体验,极端情况下,会造成用户流失,大家都知道现在互联网的流量有多贵的,获客成本还是比较高的。 那么如何消灭这堆问题,就变成了重中之重。

业务场景:

在业务开发的过程中,经常会遇到各种稳定性问题,你是否遇到过如下的问题:

1. 在nginx+php-fpm架构下,经常会出现502/504等错误,

2. 业务代码里出现了一些奇怪的业务错误

3. 某个api的错误率太高

……

 

这些问题都会让我们的业务系统受到影响,甚至影响到用户体验,极端情况下,会造成用户流失,大家都知道现在互联网的流量有多贵的,获客成本还是比较高的。

那么如何消灭这堆问题,就变成了重中之重。

排查问题时,日志是必不可少的一环,怎么样才能充分利用日志来解决这些稳定性问题呢?

通过我们会把一些api的访问信息记录到nginx的access log,在业务代码里会针对业务上需要关注的点打业务日志。那么业务日志如何快速转化为可视图表,以及实时统计报警呢?

这就变成了一个当前遇到的难题?

 

本文将通过SLS+云监控联合作战,轻松将业务日志数据化,来消灭这些业务系统中的痼疾

1.      首先需要在应用中打印出来类似的日志, 其中requestId用于链路跟踪:

8921d596a568977b3d7d66e205be6a84c0d69ddd8921d596a568977b3d7d66e205be6a84c0d69ddd

2.      安装logtail用于日志采集,具体参考:

https://help.aliyun.com/document_detail/28982.html?spm=a2c4g.11186623.2.10.ApdxhC

3.      在sls控制台上添加project和logstore,如图:

df6134a65aec95e911658aa458238b50a9f3564d

4.      设置logtail配置,如图:

1d8534e365ff65a43e5201772d31e7c64d31adea


5.      通过字段提取,提取出对应的key:value格式数据,方便用于索引分析:

b7ef6673222ff2e1f9401a16faa3fe1fe91fa218

6.      将logtail配置应用于机器组,当然如果没有机器,可以新建机器组。

c6c32002e299c26428123335476f229bbec96299

7.      进行日志预览和查询分析索引设置,如下图:

4935ab72d03572eb32728ef2a8952b8531618383


8c56f525e3e62230b81896540af4f62c9d116732


a39b0cac6c763a09c061b382caf6e1fcde275a16

8.   在云监控控制台配置日志监控,由于日志监控需要关联应用分组,所以先创建应用分组,并把对应的应用机器关联到应用分组中,如下图:

      838fadecc53e8ca2b0d5112af2051dafe2faf893

9.          添加日志监控,如下图:

1a16365ca6ed12c77bc26b02a9eae94ee7de3e72


假设我们需要统计1分钟实时的访问情况,可以如下图:


4e13b1f5d439f65c7a17f2108b01cd70a7d2209f


 

10.      这样就完成了1分钟的实时访问数据图表了,其他的访问路径上的图表也可以类似完成。

9ea7e61bb714d45071d4c8ea8abc01ab0f4ba4bf


11.      当然你还可以只需要简单地配置监控报警来实现业务日志的实时报警,

       例如:1分钟内的某个API错误率达到10%,就开始报警。

 

是不是很简单呀?赶快行动起来,来试试呗。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
3月前
|
弹性计算 监控 索引
阿里泛日志设计与实践问题之SLS Scan服务的稳定性和可用性如何保证
阿里泛日志设计与实践问题之SLS Scan服务的稳定性和可用性如何保证
|
运维 监控 Cloud Native
Docker 容器监控与日志收集:实时监控和故障排查,提高容器化应用的稳定性和可靠性
Docker 容器监控与日志收集:实时监控和故障排查,提高容器化应用的稳定性和可靠性
716 0
|
运维 监控 安全
启用控制面日志采集及告警提升系统稳定性
服务网格的控制面组件扮演的一个重要角色是负责推送网格的规则配置到数据面的Sidecar代理或者网关中。如果用户配置的网格规则内容存在一些冲突导致推送失败, 因此代理或者网关就接收不到最新的配置内容。 因为代理或网关在不重启的情况下, 仍然可以使用已经接收到的配置继续运行, 但是一旦这些Pod重启, 很有可能导致Sidecar代理或网关启动失败。 在很多实际的客户场景中, 经常出现用户误配置引发的网关或代理不可用问题, 因此启用控制面的日志告警, 及时发现问题、解决问题势在必行。 ASM支持采集控制平面日志和日志告警,例如采集ASM控制平面向数据平面Sidecar推送配置的相关日志。
273 0
启用控制面日志采集及告警提升系统稳定性
|
弹性计算 JSON 监控
日志服务SLS开放告警接入云监控
阿里云的云监控服务用于监控阿里云资源和互联网应用,包括阈值告警和事件告警两种模式,支持配置多种告警通知渠道。您可以将日志服务开放告警配置为其中一个通知渠道,从而由日志服务告警系统完成告警降噪、静默等处理,并且接入包括短信、电话、微信、钉钉、邮箱在内的10多种通知渠道。
|
监控
云监控一键报警,为您的云上资源加一道快速保障
云监控赶在春节前推出了一键报警功能,希望能帮助对云上监控运维还不太熟悉的小伙伴们,快速建立起基础的初级监控报警解决方案,安心过个好年。
2743 0
|
存储 监控
云监控--3分钟帮你实现日志关键字报警
在企业级的业务运维和运营场景中, 日志正扮演着越来越重要的角色。但使用传统日志采集与分析方案ELK和监控界的老大哥Zabbix就面临着需要投入大量时间和人力搭建庞大的攻城武器、付出沉重的运维成本的问题,实在有点得不偿失。
1412 0
|
监控 Java 开发工具
云监控发布事件监控功能,助力开发者快速提升业务稳定性
服务在运行过程中,难免出现异常情况,严重异常甚至会中断您的业务。传统方法是通过开源的ELK(ElasticSearch, Logstash, Kibana)等收集和查询异常,并对接消息网关发送报警。但这些开源系统往往是由多个复杂的分布式系统组成,自行搭建和维护面临着技术门槛高、时间和人力成本高的问题。
1847 0
|
21天前
|
XML JSON Java
Logback 与 log4j2 性能对比:谁才是日志框架的性能王者?
【10月更文挑战第5天】在Java开发中,日志框架是不可或缺的工具,它们帮助我们记录系统运行时的信息、警告和错误,对于开发人员来说至关重要。在众多日志框架中,Logback和log4j2以其卓越的性能和丰富的功能脱颖而出,成为开发者们的首选。本文将深入探讨Logback与log4j2在性能方面的对比,通过详细的分析和实例,帮助大家理解两者之间的性能差异,以便在实际项目中做出更明智的选择。
139 3
|
21天前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1585 14
|
17天前
|
Python
log日志学习
【10月更文挑战第9天】 python处理log打印模块log的使用和介绍
20 0