可用性监控-先于用户知道应用挂了

简介: 背景:任何服务都避免不了出现以下问题,你的用户访问不了你的服务或者站点,用户偶尔碰到5xx,服务响应延迟比较慢,某台应用进程挂掉,导致访问时好时坏。问题在于,_你是否要等你的用户来告诉你,你的程序是问题了_。

背景:

任何服务都避免不了出现以下问题,你的用户访问不了你的服务或者站点,用户偶尔碰到5xx,服务响应延迟比较慢,某台应用进程挂掉,导致访问时好时坏。问题在于,_你是否要等你的用户来告诉你,你的程序是问题了_。

困难:

然而,当企业上云后,应用程序的运行环境也变得复杂。
也许你的应用程序跑在了ecs上,可能是在vpc的内网环境里,无法有效的触达到你的应用程序。
也许你的应用程序跑在docker容器里。
也许你的应用程序是直接run在serverless架构里。
也许你懒于自己维护了一个zabbix,需要付出较大的维护成本。

以上这些,都让应用程序的运行时可用性监控变得困难。

解决方案:

可用性监控

云监控推出了应用可用性监控,可以通过在控制台创建一个可用性监控任务,从分组内选择部分机器,发起到本地127.0.0.1或者到内网组件(rds,oss,redis等),或者是远程api的探测任务,并将探测结果反馈到云监控,同时用户可以对探测结果设置一个报警, 当探测不通或者不符合预期时,通过短信,邮件,钉钉,消息,回调等方式,在出问题的第一时间通知给你,让你在第一时间作出反应。

目前支持的探测类型包括:ping,telnet,http(s)三种,其中http支持对返回结果做简单检验,判断是否包括某些关键字等。

可用性探测示意图:

image.png | center | 832x435

具体步骤:

创建分组,实例资源加入分组,并给分组指定相关人(管理分组,接收报警通知)

image.png | center | 776x564

image.png | center | 776x564

创建可用性监控

image.png | center | 832x605

image.png | center | 832x605

报警通知

目前云监控支持短信,钉钉,邮件,消息MNS,公网http回调等多种通知方式。同时支持报警后静默多长时间再次通知,在哪个时间段内生效(也许白天你上班时间自己盯着,不希望白天发短信)。

另外,云监控提供每月1000条短信免费使用。在下个版本,大概3月底,云监控还将支持电话报警。

到这里, 安全可靠的应用可用性监控就配置好了, 如果应用发生问题,比如进程挂掉,端口不响应,响应延迟等,就可以及时得到通知了。

最后

同时, 云监控还支持

  • 主机监控(提供秒级的丰富的监控指标,支持非阿里云主机,打通线上线下),
  • 云服务监控(包括阿里云上30+商业化产品),
  • 站点监控,
  • 日志监控,
  • 自定义监控,
  • 错误事件监控,
  • 丰富灵活的自定义监控大盘,
  • 支持跨产品跨地域的应用资源分组

等丰富完善的端到端的监控功能栈。相信一定可以解决您的云上监控需求。

云监控地址:https://www.aliyun.com/product/jiankong?spm=5176.8142029.388261.412.3836dbccqatHrh

image.png | center | 832x477

目录
相关文章
|
安全 Linux 网络安全
/var/log/secure日志详解
Linux系统的 `/var/log/secure` 文件记录安全相关消息,包括身份验证和授权尝试。它涵盖用户登录(成功或失败)、`sudo` 使用、账户锁定解锁及其他安全事件和PAM错误。例如,SSH登录成功会显示"Accepted password",失败则显示"Failed password"。查看此文件可使用 `tail -f /var/log/secure`,但通常只有root用户有权访问。
4254 4
|
Java UED
Java中String强转int:一种常见的错误和解决方法
在Java中将非数字字符串转换为整数会导致`NumberFormatException`。要解决这个问题,可以使用`try-catch`捕获异常,正则表达式验证数字格式,或利用异常信息提供错误提示。例如,`Integer.parseInt()`会因遇到非数字字符如`"123abc"`而抛出异常,但通过异常处理或正则`\\d+`可确保安全转换。记得在编程时避免直接强转,以防止程序异常中断。
|
Java 测试技术 持续交付
自动化测试实践:从单元测试到集成测试
【6月更文挑战第28天】-单元测试:聚焦代码最小单元,确保每个函数或模块按预期工作。使用测试框架(如JUnit, unittest),编写覆盖所有功能和边界的测试用例,持续集成确保每次变更后自动测试。 - 集成测试:关注模块间交互,检查协同工作。选择集成策略,编写集成测试用例,模拟真实环境执行测试,整合到CI/CD流程以持续验证软件稳定性。 自动化测试提升软件质量,降低成本,加速开发周期,是现代软件开发不可或缺的部分。
|
传感器 人工智能 安全
人工智能与物联网:智能家居的新时代
【10月更文挑战第31天】随着科技的发展,人工智能(AI)和物联网(IoT)的融合正引领我们进入全新的智能家居时代。本文探讨了这一技术趋势如何改变生活方式,提升家居的便捷性、高效性和安全性,并展望了未来的挑战和前景。
|
存储 算法 大数据
算法设计与分析 实验三 回溯法求解地图填色问题(下)
算法设计与分析 实验三 回溯法求解地图填色问题
1255 0
算法设计与分析 实验三 回溯法求解地图填色问题(下)
|
Go
Golang语言基础之接口(interface)及类型断言
这篇文章是关于Go语言中接口(interface)及类型断言的详细教程,涵盖了接口的概念、定义、实现、使用注意事项以及类型断言的多种场景和方法。
581 4
|
Java 测试技术
Java SpringBoot Test 单元测试中包括多线程时,没跑完就结束了
Java SpringBoot Test 单元测试中包括多线程时,没跑完就结束了
431 0
测试开发基础 mvn test | 利用 Maven Surefire Plugin 做测试用例基础执行管理
1. 执行自动化测试用例的时候,只想指定某个测试类,或者某个方法,又或者某一类用例等,怎么办? 2. 想要和 Jenkins 一起进行持续集成,可是用例又不可能在 IDE 里面执行,怎么办? 这个时候就需要 Maven 登场了,利用 `Maven 的Maven-Surefire-Plugin`插件可以帮助我们完成上述的目标!它可以通过命令行的形式来管理我们要执行的用例。
测试开发基础 mvn test | 利用 Maven Surefire Plugin 做测试用例基础执行管理
|
存储 关系型数据库 MySQL
深入理解MySQL:查询表的历史操作记录
深入理解MySQL:查询表的历史操作记录
1974 0
|
开发者 Python
Flask的一种启动方式和三种托管方式
本文介绍了 Flask 的四种启动方法:原生启动、gevent 启动、tornado 启动以及 waitress 启动。每种启动方法都有其优点和适用场景,除本文四种启动方式外,Flask还支持其他很多种启动方式和托管方式,开发者可以根据自己的需求进行选择。
1542 1