端到端的ECS可观测性方案,助力云上业务安全稳定

本文涉及的产品
性能测试 PTS,5000VUM额度
可观测监控 Prometheus 版,每月50GB免费额度
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
简介: 本文介绍了云原生时代保障业务系统可靠性的方法和挑战,重点探讨了阿里云ECS在提升业务稳定性、性能监控及自动化恢复方面的能力。文章分为以下几个部分:首先,阐述了业务可靠性的三个阶段(事前预防、事中处理、事后跟进);其次,分析了云上业务系统面临的困难与挑战,并提出了通过更实时的监测和自动化工具有效规避风险;接着,详细描述了ECS实例稳定性和性能问题的解决方案;然后,介绍了即将发布的ECS Lens产品,它将全面提升云上业务的洞察能力和异常感知能力;最后,通过具体案例展示了如何利用OS自动重启和公网带宽自适应调节等功能确保业务连续性。总结部分强调了ECS致力于增强性能和稳定性的目标。

一、保障业务系统的可靠性

在云原生时代,如K8S、微服务、异地多活等技术架构,都在为解决这一问题提供着各自的方案。要真正保障业务系统的可靠性,需要从第一性原理出发,对业务系统的可靠性进行拆分。


1.业务可靠性的三个阶段

第一阶段是事前预防阶段,旨在避免故障和异常的发生;第二阶段是事中处理阶段,即在故障真正出现时,如何迅速发现、定位并恢复;以及事后跟进阶段,即发现异常隐患后,如何跟进修复,并持续保障,避免同类问题再次发生。


2.三个环节的提升方向

首先,如何规避故障隐患。这需要我们更早、更及时地发现业务服务中存在的隐患,并探索有效的隐患规避方式。

其次,与云上更多的自动化能力相关。如何借助云上更全面、更自动化的工具来进行故障恢复。

最后,阿里云将提供持续的数据监测,确保用户的服务在持续、可靠的使用中。

 

二、云上业务系统可靠性的困难和挑战

阿里云在构建整体产品功能时,已经提供了丰富的云上运维能力,如云监控的监控告警、异常诊断、弹性伸缩等不仅解决了成本问题,还能有效帮助业务规避风险。同时还提供了自动化的运维编排服务。然而这些能力的更好执行,依赖于我们能否更好、更实时、更准确地监测业务情况,避免过多的噪声干扰,从而给出正确的判断。

 

三、ECS视角:用户业务稳定运行的痛点

ECS作为基础设施层的重要组成内容,一方面提供了ECS侧的实力能力及物理基础设施运行情况的信息,这些信息均可免费获取。另一方面,在整个基础底座中,用户操作系统层面的信息,如运行数据、内核进程的使用量等,对业务有着重大影响。特别是在操作系统内核层面,对于一般用户而言,具有较高的门槛,因为操作系统相对复杂,用户难以快速在操作系统中做出问题判断。基于最原始的责任边界,阿里云主要负责底座的稳定,而在用户责任方面,致力于提供更方便、更灵活的工具,以减少异常发生。


1. ECS实例稳定性问题

要确认责任边界,即判断是ECS底层问题还是用户代码侧异常,这完全决定了不同的排查方向及需要查看的信息,因此需要快速定界并更快地发现问题。


2. 实例性能问题

用户在购买阿里云实例时,每个实例都有一定的规格,代表其能提供的CPU、内存以及存储、网络性能能力。如何更直观地识别这些能力,让用户了解自身业务是否与实例规格匹配,或存在哪些方面的性能不匹配,都会极大影响业务的可靠性。

 

四、即将发布ECS Lens:ECS可观测能力全面升级

ECS Lens即将在10月份发布。本质上它是基于阿里巴巴Cloudless洞察框架和ECS原有可观测性能力打造的,旨在全面提升云上业务的洞察能力、提升字符。Cloudless洞察框架提供了统一的数据接入、通用场景的可观测能力,如成本、访问、安全等场景,都能做到快速定义。同时它支持更多灵活数据的订阅,方便用户基于ECS实例的数据做更全面的可观测性分析。基于ECS原有的可观测能力进行升级,以支持用户更多不同的应用场景。本质上提供的稳定性能力能解决分钟级的异常发现,并借助原有的ECS系统事件,达到85%以上的隐患异常提前识别。针对实例性能问题,可以做到一键诊断,快速发现。

 

五、ECS Lens产品的全景图

ECS Lens是阿里云可观测体系下的一部分,分为整体可观测体系的爱视层、应用层以及用户业务层。在ECS这一侧,更多聚焦于ECS层由于有一定的运维编排能力,便称之为ECS+层。


整个能力体系上,首先由CIPO(Cloud Infrastructure Performance Observer,云基础设施性能观测器)基础底座提供整体的计算、存储核心指标的采集。接着,通过云监控会做用户操作系统内的指标采集,方便用户更好地识别当前实例的运行状态。基于CIPU底座和云监控的采集,会依托整体数据智能算法平台,提供更多的计划运维事件、性能风险事件以及实例状态变更的识别,确保整个全周期及各个异常状态点都能进行自动化的运维定义。


上一层,还有两块诊断分析的能力。一是实例健康诊断,对于常见问题,可以用实例健康诊断快速排查当前实例的异常。二是新增加的实力性能分析,帮助用户更好地使用实例规格,用好规则。


整体而言提供了一个丰富的ECS系统监测指标、领先的异常感知能力,并能与云上可观测体系及ECS相关的应用能力相结合,整体保障用户实现端到端的可观测方案。

 

六、新增的功能

1.实力状态检查指标

实力状态检查指标旨在解决如何识别实力是否有异常,以及异常诱因是来自阿里云侧还是用户应用侧的问题。参考AWS的做法,开发了state check功能,一方面提供宿主机状态检查,另一方面提供应用侧状态检查,能够在分钟级内判断是否是阿里云侧的异常导致实力不可用。在异常识别能力方面,原先提供了操作系统错误事件来帮助用户感知异常,但该功能需要用户应用持续3分钟以上不可用才会触发事件。为了减少误判,则设置这三分钟。然而这不利于实时的应用自动化监控。为了解决这一问题,我们新增了状态检查功能,以实现更实时的异常检测和更自动化的集成。


2.关于实力性能方面的能力提升

原先已经提供了ECS实例的如网络带宽、CPU利用率以及存储IOPS等用量指标,但对于用量指标,用户往往难以直接使用。例如,同样的实力,CPU利用率10%和50%对于业务的判断并不相同。对于比如Freddy的实力可能10%已经达到了上限但是对于四合的实力,它的50%的用量可能也只是一个刚刚好的、正常的状态这样的话会基于实力上限做一个水位,这样就可以聚焦到百分比的逻辑当应用达到80%以上的CPU利用率时,显然已处于不健康状态,用户可设置告警和通知。


3.性能风险事件功能

当实力在运行过程中某一项性能指标达到100%时,会记录性能风险事件,方便用户回溯历史运行状态。整体而言从用量指标出发,推出了更多性能水位指标和性能风险事件,确保用户能快速查看当前实力的性能状态是否健康。此外会提供一个性能分析页面,告知用户当前存在的性能风险及其来源,并增加规格推荐等逻辑,帮助用户更好地利用实际性能。


4.自动化恢复能力

通过指标和事件,定义了许多风险场景,并探索如何与更强大的自动化能力相结合。目前主要提供基于ECS系统事件的自愈能力,ECS系统事件更多聚焦底层ECS宿主机异常问题,它能够ECS的维护属性相结合比如在遇到故障之后是要做重启还是停机的简单操作能够闭环ECS测的问题,并通过实力重启等简单操作实现业务自愈。但对于一般的用户来说一般的业务可能承受不起停机风险,所以会更加的倾向基于OS实现自身业务的自愈能力比如针对业务咨询可以在故障发生之前做好业务切流以及数据备份保证故障规避条件下无损恢复业务,从而持续的保证线上业务的可运行性。

 

七、两个场景

一是公网带宽自适应调节,基于公网带宽利用率水位 ,当水位到达90%自动申请临时带宽升级,保证公网始终属于利用率比较合理的状态避免延时过高导致上游应用出错;二是实例重部署,主要是来自于AI推理的算法它需要用到很多的本地盘数据但是本地盘的数据发生损坏后,需要做实力的重置但重置后,它本身的信用盘的数据仍然存在,这会导致的实力在节点发现的时候出现异常,那么最好的方式是基于实力重置的逻辑保证全新的实力重新加到业绩群里来实现实力恢复。

 

八、案例

1.关于OS自动重启及CPU利用率的异常

日常的代码和发布环节中,很容易出现一些操作是应用侧的发布错误导致业务锁死,使整个实力的CPU狂飙,从而不可用在这个情况下建议用户配置告警与事件运维,比如当整个实力处于5分钟以上的CPU百分百的打满本质上对于上游业务除了一些离线业务作业外在线业务基本上在这个阶段是处于不可服务的状态,则需要借助OS的能力告警与事件运维定义具体的CPU的指标把待关联的在线业务实际关联进来,并选择一个批量重启的模板。如果可以再定义比如恢复时长和调整内容实现通化运维的能力这一业务通化运维的能力帮助我们做业务兜底避免线上的业务持续跑满,从而百分百完全不可服务,是因为没有及时做治愈


2.公网带宽

首先公网带宽的费用都是比较贵的,对于一般的用户更多的是基于包年包月固定带宽的方式来选择但是为了偶发的一些大促或为了一些突发的业务高峰会做一些临时概况的升级通过这个方式可以既有效又省时省力的解决这一类的问题

 

九、总结

ECSMAS的目标是助力用户尽享ECS的卓越性能和稳定性全面增强ECS性能和稳定性的异常识别结合智能化实现端到端的盈利今天主要介绍的是稳定性性能以及自动化关联的关系但是像降本以及其他的安全类的问题在后续的产品研究中也会逐步的丰富和建设

 

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
5月前
|
安全 Ubuntu 应用服务中间件
Web服务器安全最佳实践
【8月更文第28天】随着互联网的发展,Web服务器成为了企业和组织的重要组成部分。然而,这也使得它们成为黑客和恶意软件的目标。为了确保数据的安全性和系统的稳定性,采取适当的安全措施至关重要。本文将探讨一系列保护Web服务器的最佳策略和技术,并提供一些实用的代码示例。
400 1
|
2月前
|
弹性计算 监控 容灾
阿里云ECS提供强大的云上灾备解决方案,通过高可用基础设施、多样的数据备份方式及异地灾备服务,帮助企业实现业务的持续稳定运行
在数字化时代,企业对信息技术的依赖加深,确保业务连续性至关重要。阿里云ECS提供强大的云上灾备解决方案,通过高可用基础设施、多样的数据备份方式及异地灾备服务,帮助企业实现业务的持续稳定运行。无论是小型企业还是大型企业,都能从中受益,确保在面对各种风险时保持业务稳定。
49 4
|
2月前
|
安全 开发工具 Swift
Swift 是苹果公司开发的现代编程语言,具备高效、安全、简洁的特点,支持类型推断、闭包、泛型等特性,广泛应用于苹果各平台及服务器端开发
Swift 是苹果公司开发的现代编程语言,具备高效、安全、简洁的特点,支持类型推断、闭包、泛型等特性,广泛应用于苹果各平台及服务器端开发。基础语法涵盖变量、常量、数据类型、运算符、控制流等,高级特性包括函数、闭包、类、结构体、协议和泛型。
33 2
|
2月前
|
NoSQL 容灾 MongoDB
MongoDB主备副本集方案:两台服务器使用非对称部署的方式实现高可用与容灾备份
在资源受限的情况下,为了实现MongoDB的高可用性,本文探讨了两种在两台服务器上部署MongoDB的方案。方案一是通过主备身份轮换,即一台服务器作为主节点,另一台同时部署备节点和仲裁节点;方案二是利用`priority`设置实现自动主备切换。两者相比,方案二自动化程度更高,适合追求快速故障恢复的场景,而方案一则提供了更多的手动控制选项。文章最后对比了这两种方案与标准三节点副本集的优缺点,指出三节点方案在高可用性和数据一致性方面表现更佳。
|
2月前
|
存储 Unix Linux
服务器数据恢复—DELL EqualLogic PS6100系列存储简介及发生故障后的处理方案
DELL EqualLogic PS6100系列存储采用虚拟ISCSI SAN阵列,支持VMware、Solaris、Linux、Mac、HP-UX、AIX操作系统,提供全套企业级数据保护和管理功能,具有可扩展性和容错功能。
|
2月前
|
安全 Linux API
Linux服务器安全
人们常误认为服务器因存于数据中心且数据持续使用而无需加密。然而,当驱动器需维修或处理时,加密显得尤为重要,以防止数据泄露。Linux虽有dm-crypt和LUKS等内置加密技术,但在集中管理、根卷加密及合规性等方面仍存不足。企业应选择具备强大验证、简单加密擦除及集中管理等功能的解决方案,以弥补这些缺口。
29 0
|
3月前
|
SQL 安全 网络安全
守护数字资产:服务器迁移期间的安全挑战与对策
【10月更文挑战第4天】在数字化转型的浪潮中,服务器迁移成为企业不可避免的任务。然而,迁移过程中的安全挑战不容忽视。本文从安全考量的角度,探讨了服务器迁移期间可能遇到的安全问题,并提供了相应的对策和代码示例。
104 3
|
4月前
|
存储 运维 监控
服务器高效运维管理方案
智能运维作为保障业务连续性和提升系统性能的关键环节,其重要性日益凸显。服务器作为承载各类应用与数据的核心基础设施,其稳定性、安全性和性能直接关系到企业的业务运行效率和用户体验
156 1
|
4月前
|
存储 弹性计算 SDN
企业级 ECS 集群的构建需要综合考虑多个因素,通过不断的比较和对比不同的方案,选择最适合企业自身需求和发展的架构。
【9月更文挑战第5天】在数字化商业环境中,构建企业级ECS(弹性计算服务)集群对提升业务稳定性、扩展性和性能至关重要。本文将比较传统物理服务器与ECS架构,分析云服务商选择(如AWS和阿里云)、实例配置(CPU/内存)、网络架构(SDN vs 传统)及存储方案(本地存储 vs 云存储),帮助企业根据自身需求选出最优方案,实现高效稳定的ECS集群部署。
83 18
|
5月前
|
云安全 弹性计算 安全
阿里云服务器基础安全防护简介,云服务器基础安全防护及常见安全产品简介
在使用云服务器的过程中,云服务器的安全问题是很多用户非常关心的问题,阿里云服务器不仅提供了一些基础防护,我们也可以选择其他的云安全类产品来确保我们云服务器的安全。本文为大家介绍一下阿里云服务器的基础安全防护有哪些,以及阿里云的一些安全防护类云产品。
阿里云服务器基础安全防护简介,云服务器基础安全防护及常见安全产品简介