可用性监控-先于用户知道应用挂了

简介: 背景:任何服务都避免不了出现以下问题,你的用户访问不了你的服务或者站点,用户偶尔碰到5xx,服务响应延迟比较慢,某台应用进程挂掉,导致访问时好时坏。问题在于,_你是否要等你的用户来告诉你,你的程序是问题了_。

背景:

任何服务都避免不了出现以下问题,你的用户访问不了你的服务或者站点,用户偶尔碰到5xx,服务响应延迟比较慢,某台应用进程挂掉,导致访问时好时坏。问题在于,_你是否要等你的用户来告诉你,你的程序是问题了_。

困难:

然而,当企业上云后,应用程序的运行环境也变得复杂。
也许你的应用程序跑在了ecs上,可能是在vpc的内网环境里,无法有效的触达到你的应用程序。
也许你的应用程序跑在docker容器里。
也许你的应用程序是直接run在serverless架构里。
也许你懒于自己维护了一个zabbix,需要付出较大的维护成本。

以上这些,都让应用程序的运行时可用性监控变得困难。

解决方案:

可用性监控

云监控推出了应用可用性监控,可以通过在控制台创建一个可用性监控任务,从分组内选择部分机器,发起到本地127.0.0.1或者到内网组件(rds,oss,redis等),或者是远程api的探测任务,并将探测结果反馈到云监控,同时用户可以对探测结果设置一个报警, 当探测不通或者不符合预期时,通过短信,邮件,钉钉,消息,回调等方式,在出问题的第一时间通知给你,让你在第一时间作出反应。

目前支持的探测类型包括:ping,telnet,http(s)三种,其中http支持对返回结果做简单检验,判断是否包括某些关键字等。

可用性探测示意图:

image.png | center | 832x435

具体步骤:

创建分组,实例资源加入分组,并给分组指定相关人(管理分组,接收报警通知)

image.png | center | 776x564

image.png | center | 776x564

创建可用性监控

image.png | center | 832x605

image.png | center | 832x605

报警通知

目前云监控支持短信,钉钉,邮件,消息MNS,公网http回调等多种通知方式。同时支持报警后静默多长时间再次通知,在哪个时间段内生效(也许白天你上班时间自己盯着,不希望白天发短信)。

另外,云监控提供每月1000条短信免费使用。在下个版本,大概3月底,云监控还将支持电话报警。

到这里, 安全可靠的应用可用性监控就配置好了, 如果应用发生问题,比如进程挂掉,端口不响应,响应延迟等,就可以及时得到通知了。

最后

同时, 云监控还支持

  • 主机监控(提供秒级的丰富的监控指标,支持非阿里云主机,打通线上线下),
  • 云服务监控(包括阿里云上30+商业化产品),
  • 站点监控,
  • 日志监控,
  • 自定义监控,
  • 错误事件监控,
  • 丰富灵活的自定义监控大盘,
  • 支持跨产品跨地域的应用资源分组

等丰富完善的端到端的监控功能栈。相信一定可以解决您的云上监控需求。

云监控地址:https://www.aliyun.com/product/jiankong?spm=5176.8142029.388261.412.3836dbccqatHrh

image.png | center | 832x477

目录
相关文章
|
应用服务中间件 PHP 数据库
使用LightPicture开源搭建私人图片管理系统并远程访问
今天,笔者就为大家展示,如何使用Cpolar内网穿透与Lightpicture组合,将个人电脑改造成能随时上传、下载或访问,并能生成外链的图床服务器。
321 0
使用LightPicture开源搭建私人图片管理系统并远程访问
|
机器学习/深度学习 传感器 编解码
首篇!BEV-Locator:多目端到端视觉语义定位网络(清华&轻舟智航)(下)
准确的定位能力是自动驾驶的基础。传统的视觉定位框架通过几何模型来解决语义地图匹配问题,几何模型依赖于复杂的参数调整,从而阻碍了大规模部署。本文提出了BEV定位器:一种使用多目相机图像的端到端视觉语义定位神经网络。具体地,视觉BEV(鸟瞰图)编码器提取多目图像并将其展平到BEV空间中。而语义地图特征在结构上嵌入为地图查询序列。然后,cross-model transformer将BEV特征和语义图查询关联起来。通过交叉注意力模块递归地查询自车的定位信息。最后,可以通过解码transformer输出来推断自车位姿。论文在大规模nuScenes和Qcraft数据集中评估了所提出的方法。
首篇!BEV-Locator:多目端到端视觉语义定位网络(清华&轻舟智航)(下)
|
6月前
|
存储 JSON OLAP
StarRocks + Paimon 在阿里集团 Lakehouse 的探索与实践
阿里集团在推进湖仓一体化建设过程中,依托 StarRocks 强大的 OLAP 查询能力与 Paimon 的高效数据入湖特性,实现了流批一体、存储成本大幅下降、查询性能数倍提升的显著成效: A+ 业务借助 Paimon 的准实时入湖,显著降低了存储成本,并引入 StarRocks 提升查询性能。升级后,数据时效提前60分钟,开发效率提升50%;JSON列化存储减少50%,查询性能提升最高达10倍;OLAP分析中,非JOIN查询快1倍,JOIN查询快5倍。 饿了么升级为准实时Lakehouse架构后,在时效性仅损失1-5分钟的前提下,实现Flink资源缩减、StarRocks查询性能提升(仅5%
|
11月前
|
算法 决策智能
基于GA-PSO遗传粒子群混合优化算法的TSP问题求解matlab仿真
本文介绍了基于GA-PSO遗传粒子群混合优化算法解决旅行商问题(TSP)的方法。TSP旨在寻找访问一系列城市并返回起点的最短路径,属于NP难问题。文中详细阐述了遗传算法(GA)和粒子群优化算法(PSO)的基本原理及其在TSP中的应用,展示了如何通过编码、选择、交叉、变异及速度和位置更新等操作优化路径。算法在MATLAB2022a上实现,实验结果表明该方法能有效提高求解效率和解的质量。
|
10月前
|
传感器 人工智能 安全
人工智能与物联网:智能家居的新时代
【10月更文挑战第31天】随着科技的发展,人工智能(AI)和物联网(IoT)的融合正引领我们进入全新的智能家居时代。本文探讨了这一技术趋势如何改变生活方式,提升家居的便捷性、高效性和安全性,并展望了未来的挑战和前景。
|
12月前
|
Go
Golang语言基础之接口(interface)及类型断言
这篇文章是关于Go语言中接口(interface)及类型断言的详细教程,涵盖了接口的概念、定义、实现、使用注意事项以及类型断言的多种场景和方法。
219 4
|
供应链 监控 算法
ERP系统中的库存优化与库存周转率分析解析
【7月更文挑战第25天】 ERP系统中的库存优化与库存周转率分析解析
1108 1
|
关系型数据库 Linux 应用服务中间件
linux服务器下LNMP安装与配置方法
通过遵循上述步骤,你已经在Linux服务器上成功配置了LNMP环境。这只是初步设置,根据你的实际需求,可能需要进一步的调整与优化。记得经常检查每个组件的默认配置文件,并根据需要进行调整以优化性能和安全性。
228 0
|
测试技术 API UED
【Qt 应用开发 】初步理解 Qt窗口中的模态性应用
【Qt 应用开发 】初步理解 Qt窗口中的模态性应用
333 1