端到端的ECS可观测性方案,助力云上业务安全稳定

简介: 本文介绍了云原生时代保障业务系统可靠性的方法和挑战,重点探讨了阿里云ECS在提升业务稳定性、性能监控及自动化恢复方面的能力。文章分为以下几个部分:首先,阐述了业务可靠性的三个阶段(事前预防、事中处理、事后跟进);其次,分析了云上业务系统面临的困难与挑战,并提出了通过更实时的监测和自动化工具有效规避风险;接着,详细描述了ECS实例稳定性和性能问题的解决方案;然后,介绍了即将发布的ECS Lens产品,它将全面提升云上业务的洞察能力和异常感知能力;最后,通过具体案例展示了如何利用OS自动重启和公网带宽自适应调节等功能确保业务连续性。总结部分强调了ECS致力于增强性能和稳定性的目标。

一、保障业务系统的可靠性

在云原生时代,如K8S、微服务、异地多活等技术架构,都在为解决这一问题提供着各自的方案。要真正保障业务系统的可靠性,需要从第一性原理出发,对业务系统的可靠性进行拆分。


1.业务可靠性的三个阶段

第一阶段是事前预防阶段,旨在避免故障和异常的发生;第二阶段是事中处理阶段,即在故障真正出现时,如何迅速发现、定位并恢复;以及事后跟进阶段,即发现异常隐患后,如何跟进修复,并持续保障,避免同类问题再次发生。


2.三个环节的提升方向

首先,如何规避故障隐患。这需要我们更早、更及时地发现业务服务中存在的隐患,并探索有效的隐患规避方式。

其次,与云上更多的自动化能力相关。如何借助云上更全面、更自动化的工具来进行故障恢复。

最后,阿里云将提供持续的数据监测,确保用户的服务在持续、可靠的使用中。

 

二、云上业务系统可靠性的困难和挑战

阿里云在构建整体产品功能时,已经提供了丰富的云上运维能力,如云监控的监控告警、异常诊断、弹性伸缩等不仅解决了成本问题,还能有效帮助业务规避风险。同时还提供了自动化的运维编排服务。然而这些能力的更好执行,依赖于我们能否更好、更实时、更准确地监测业务情况,避免过多的噪声干扰,从而给出正确的判断。

 

三、ECS视角:用户业务稳定运行的痛点

ECS作为基础设施层的重要组成内容,一方面提供了ECS侧的实力能力及物理基础设施运行情况的信息,这些信息均可免费获取。另一方面,在整个基础底座中,用户操作系统层面的信息,如运行数据、内核进程的使用量等,对业务有着重大影响。特别是在操作系统内核层面,对于一般用户而言,具有较高的门槛,因为操作系统相对复杂,用户难以快速在操作系统中做出问题判断。基于最原始的责任边界,阿里云主要负责底座的稳定,而在用户责任方面,致力于提供更方便、更灵活的工具,以减少异常发生。


1. ECS实例稳定性问题

要确认责任边界,即判断是ECS底层问题还是用户代码侧异常,这完全决定了不同的排查方向及需要查看的信息,因此需要快速定界并更快地发现问题。


2. 实例性能问题

用户在购买阿里云实例时,每个实例都有一定的规格,代表其能提供的CPU、内存以及存储、网络性能能力。如何更直观地识别这些能力,让用户了解自身业务是否与实例规格匹配,或存在哪些方面的性能不匹配,都会极大影响业务的可靠性。

 

四、即将发布ECS Lens:ECS可观测能力全面升级

ECS Lens即将在10月份发布。本质上它是基于阿里巴巴Cloudless洞察框架和ECS原有可观测性能力打造的,旨在全面提升云上业务的洞察能力、提升字符。Cloudless洞察框架提供了统一的数据接入、通用场景的可观测能力,如成本、访问、安全等场景,都能做到快速定义。同时它支持更多灵活数据的订阅,方便用户基于ECS实例的数据做更全面的可观测性分析。基于ECS原有的可观测能力进行升级,以支持用户更多不同的应用场景。本质上提供的稳定性能力能解决分钟级的异常发现,并借助原有的ECS系统事件,达到85%以上的隐患异常提前识别。针对实例性能问题,可以做到一键诊断,快速发现。

 

五、ECS Lens产品的全景图

ECS Lens是阿里云可观测体系下的一部分,分为整体可观测体系的爱视层、应用层以及用户业务层。在ECS这一侧,更多聚焦于ECS层由于有一定的运维编排能力,便称之为ECS+层。


整个能力体系上,首先由CIPO(Cloud Infrastructure Performance Observer,云基础设施性能观测器)基础底座提供整体的计算、存储核心指标的采集。接着,通过云监控会做用户操作系统内的指标采集,方便用户更好地识别当前实例的运行状态。基于CIPU底座和云监控的采集,会依托整体数据智能算法平台,提供更多的计划运维事件、性能风险事件以及实例状态变更的识别,确保整个全周期及各个异常状态点都能进行自动化的运维定义。


上一层,还有两块诊断分析的能力。一是实例健康诊断,对于常见问题,可以用实例健康诊断快速排查当前实例的异常。二是新增加的实力性能分析,帮助用户更好地使用实例规格,用好规则。


整体而言提供了一个丰富的ECS系统监测指标、领先的异常感知能力,并能与云上可观测体系及ECS相关的应用能力相结合,整体保障用户实现端到端的可观测方案。

 

六、新增的功能

1.实力状态检查指标

实力状态检查指标旨在解决如何识别实力是否有异常,以及异常诱因是来自阿里云侧还是用户应用侧的问题。参考AWS的做法,开发了state check功能,一方面提供宿主机状态检查,另一方面提供应用侧状态检查,能够在分钟级内判断是否是阿里云侧的异常导致实力不可用。在异常识别能力方面,原先提供了操作系统错误事件来帮助用户感知异常,但该功能需要用户应用持续3分钟以上不可用才会触发事件。为了减少误判,则设置这三分钟。然而这不利于实时的应用自动化监控。为了解决这一问题,我们新增了状态检查功能,以实现更实时的异常检测和更自动化的集成。


2.关于实力性能方面的能力提升

原先已经提供了ECS实例的如网络带宽、CPU利用率以及存储IOPS等用量指标,但对于用量指标,用户往往难以直接使用。例如,同样的实力,CPU利用率10%和50%对于业务的判断并不相同。对于比如Freddy的实力可能10%已经达到了上限但是对于四合的实力,它的50%的用量可能也只是一个刚刚好的、正常的状态这样的话会基于实力上限做一个水位,这样就可以聚焦到百分比的逻辑当应用达到80%以上的CPU利用率时,显然已处于不健康状态,用户可设置告警和通知。


3.性能风险事件功能

当实力在运行过程中某一项性能指标达到100%时,会记录性能风险事件,方便用户回溯历史运行状态。整体而言从用量指标出发,推出了更多性能水位指标和性能风险事件,确保用户能快速查看当前实力的性能状态是否健康。此外会提供一个性能分析页面,告知用户当前存在的性能风险及其来源,并增加规格推荐等逻辑,帮助用户更好地利用实际性能。


4.自动化恢复能力

通过指标和事件,定义了许多风险场景,并探索如何与更强大的自动化能力相结合。目前主要提供基于ECS系统事件的自愈能力,ECS系统事件更多聚焦底层ECS宿主机异常问题,它能够ECS的维护属性相结合比如在遇到故障之后是要做重启还是停机的简单操作能够闭环ECS测的问题,并通过实力重启等简单操作实现业务自愈。但对于一般的用户来说一般的业务可能承受不起停机风险,所以会更加的倾向基于OS实现自身业务的自愈能力比如针对业务咨询可以在故障发生之前做好业务切流以及数据备份保证故障规避条件下无损恢复业务,从而持续的保证线上业务的可运行性。

 

七、两个场景

一是公网带宽自适应调节,基于公网带宽利用率水位 ,当水位到达90%自动申请临时带宽升级,保证公网始终属于利用率比较合理的状态避免延时过高导致上游应用出错;二是实例重部署,主要是来自于AI推理的算法它需要用到很多的本地盘数据但是本地盘的数据发生损坏后,需要做实力的重置但重置后,它本身的信用盘的数据仍然存在,这会导致的实力在节点发现的时候出现异常,那么最好的方式是基于实力重置的逻辑保证全新的实力重新加到业绩群里来实现实力恢复。

 

八、案例

1.关于OS自动重启及CPU利用率的异常

日常的代码和发布环节中,很容易出现一些操作是应用侧的发布错误导致业务锁死,使整个实力的CPU狂飙,从而不可用在这个情况下建议用户配置告警与事件运维,比如当整个实力处于5分钟以上的CPU百分百的打满本质上对于上游业务除了一些离线业务作业外在线业务基本上在这个阶段是处于不可服务的状态,则需要借助OS的能力告警与事件运维定义具体的CPU的指标把待关联的在线业务实际关联进来,并选择一个批量重启的模板。如果可以再定义比如恢复时长和调整内容实现通化运维的能力这一业务通化运维的能力帮助我们做业务兜底避免线上的业务持续跑满,从而百分百完全不可服务,是因为没有及时做治愈


2.公网带宽

首先公网带宽的费用都是比较贵的,对于一般的用户更多的是基于包年包月固定带宽的方式来选择但是为了偶发的一些大促或为了一些突发的业务高峰会做一些临时概况的升级通过这个方式可以既有效又省时省力的解决这一类的问题

 

九、总结

ECSMAS的目标是助力用户尽享ECS的卓越性能和稳定性全面增强ECS性能和稳定性的异常识别结合智能化实现端到端的盈利今天主要介绍的是稳定性性能以及自动化关联的关系但是像降本以及其他的安全类的问题在后续的产品研究中也会逐步的丰富和建设

 

相关实践学习
基于ECS搭建FTP服务
本教程介绍如何在Linux实例上安装并配置vsftpd,在被动模式下,使用本地用户访问FTP服务器的配置方法。。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
9月前
|
监控 安全 Ubuntu
从零开始学安全:服务器被入侵后的自救指南
在信息爆炸时代,服务器安全至关重要。本文针对黑客入侵问题,从应急处理、系统恢复到安全加固全面解析。发现入侵时应冷静隔离服务器,保存日志证据,深入排查痕迹;随后通过重装系统、恢复数据、更改密码完成清理;最后加强防火墙、更新软件、部署检测系统等措施防止二次入侵。服务器安全是一场持久战,需时刻警惕、不断优化防护策略。
1332 1
|
6月前
|
关系型数据库 Linux PHP
开源站群服务器方案:构建高效流量矩阵的全攻略
正在寻找高性价比、可控性强且功能强大的站群解决方案?小编将深度解析开源站群服务器方案,从核心优势、主流工具选型到部署实践,助您构建稳定、高效的站群流量体系。
|
并行计算 前端开发 异构计算
告别服务器繁忙,云上部署DeepSeek
本文以 DeepSeek-R1-Distill-Qwen-32B-FP8 为例,向您介绍如何在GPU实例上使用容器来部署量化的 DeepSeek-R1 蒸馏模型。
|
8月前
|
运维 前端开发 JavaScript
半夜服务器告警不再错过!运维人员必备的语音通知方案
为解决深夜服务器宕机错过告警的问题,本文介绍一款专为个人开发者与运维人员设计的语音通知方案。通过电话直接推送重要告警,确保第一时间响应,避免故障扩大。支持多种编程语言调用,配置简单,3步即可完成,实时性强,适合各类关键业务场景。
689 5
|
7月前
|
存储 固态存储 Linux
从 0 学服务器虚拟化:VMware 搭建 3 个虚拟主机,个人 / 小企业够用的方案
服务器虚拟化技术通过在单台物理机上运行多个虚拟机,显著提升资源利用率和管理灵活性。本文以 VMware ESXi 8.0 Update 3e 为例,详解如何搭建经济实用的虚拟化环境,支持 3 个虚拟主机稳定运行,适合个人开发者和小企业降低硬件投入、实现数据本地化与安全存储。
1718 0
|
7月前
|
弹性计算 监控 网络协议
香港云服务器访问速度慢?阿里云精品BGP线路EIP一键提速方案
香港云服务器因默认BGP线路访问不稳定,尤其中国大陆用户面临高延迟与丢包问题。本文详解问题根源,并介绍阿里云国际站推出的精品BGP线路EIP解决方案,通过直连优化显著降低延迟,提升稳定性,助力企业实现高效跨境网络访问。
|
8月前
|
人工智能 安全 算法
长擎安全操作系统:构筑企业级服务器安全的坚固基石
长擎安全操作系统,以自主可控内核为基础,构建七层纵深防御体系,全面支持国密算法与可信计算,适配能源、金融、制造等关键行业,为企业服务器提供全方位安全保障,助力数字化转型安全发展。
|
7月前
|
运维 数据可视化 数据库
一小时搞定服务器软件部署:资深工程师实测方案
本文分享了一位运维工程师在短时间内将30个不同软件部署到新服务器上的实战经验。面对全新 Rocky Linux 系统,传统手工部署方式效率低下且容易出错。作者尝试多种自动化方案后,最终选择使用自动化部署工具,通过其内置的 Docker Compose 模板和可视化界面,实现快速、批量部署,大幅提升效率,30个应用仅用约1小时完成,显著节省时间和人力成本。
|
8月前
|
安全 Linux 网络安全
Python极速搭建局域网文件共享服务器:一行命令实现HTTPS安全传输
本文介绍如何利用Python的http.server模块,通过一行命令快速搭建支持HTTPS的安全文件下载服务器,无需第三方工具,3分钟部署,保障局域网文件共享的隐私与安全。
2079 0