一文掌握CloudOps云上运维精华内容

本文涉及的产品
资源编排,不限时长
无影云电脑企业版,4核8GB 120小时 1个月
无影云电脑个人版,1个月黄金款+200核时
简介: 【CloudOps云上自动化运维专场】由阿里云弹性计算高级产品专家马小婷、北京数美时代科技有限公司首席架构师陈建、阿里云弹性计算高级技术专家王凌志、深势科技总架构师李样兵、阿里云弹性计算高级技术专家钱超、阿里云弹性计算技术专家杜文彬、阿里云弹性计算高级技术专家张尤、阿里云弹性计算技术专家李化楠、阿里云弹性计算技术专家樊超,共9位内外部重磅嘉宾出席分享。


2023年10月31日-11月2日,2023云栖大会在中国杭州·云栖小镇召开,阿里云弹性计算团队在本次云栖大会中推出26场并行Session话题,其中【CloudOps云上自动化运维专场】由阿里云弹性计算高级产品专家马小婷、北京数美时代科技有限公司首席架构师陈建、阿里云弹性计算高级技术专家王凌志、深势科技总架构师李样兵、阿里云弹性计算高级技术专家钱超、阿里云弹性计算技术专家杜文彬、阿里云弹性计算高级技术专家张尤、阿里云弹性计算技术专家李化楠、阿里云弹性计算技术专家樊超,共9位内外部重磅嘉宾出席分享。


嘉宾们分别从CloudOps两大产品升级重磅发布、最佳实践分享、基于CloudOps能力提升云上业务的安全稳定的经验、多样化的弹性计算产品类型、阿里云如何构建ECS实例稳定性核心能力、阿里云在智能监控体系建设中采集、诊断、智能运维以及自动化运维能力的各个核心组件的技术架构和设计思考等几大方面进行了专业的分享,以下是各位讲师的分享精华内容,供阅览:


首先为大家带来分享的是阿里云弹性计算的高级产品专家马小婷,她在分享中详细介绍了CloudOps的概念和产品大图,并重磅发布2大产品升级,即系统运维管理OOS和ECS insight,以及对应的最佳实践,帮助用户使用阿里云原生能力解决弹性、成本、自动化、安全、稳定性等多方面需求。


马小婷 阿里云弹性计算高级产品专家


马小婷介绍到:CloudOps本质上有两层含义。其一,与DevOps类似,CloudOps也是一种运维理念,它不仅定义了目前所有企业客户用云关注的五大维度,即成本(Cost)、自动化(Automation)、可靠性(Reliability)、弹性(Elasticity)和安全性(Security),简称为CARES,而且强调用户需要借助云厂商提供的服务和工具快速完成业务价值的交付,而不是从零到一自行构建。



其二,CloudOps也是阿里云提供的管理ECS的一系列自动化运维工具套件的总称。面对用户在云上经常遇到的成本浪费、运维效率低、可靠性或可用性低、以及安全隐患五大问题,ECS团队提供非常丰富的工具和能力帮助用户解决问题。所有这些工具根据CARES进行分类,组成一个产品集合叫CloudOps,即自动化运维工具套件。



阿里云自动化运维套件CloudOps的产品矩阵详见上图。在成本管理与优化维度,阿里云除了提供包年包月、按量、节省计划等丰富的付费模式外,还提供资源报表和成本分析的能力,帮助用户快速分析和优化成本。在自动化服务维度,阿里云不仅提供了云助手、会话管理等基础的运维通道,方便用户在无需登录实例即可完成命令的安全执行,而且还提供了运维编排OOS、补丁管理、应用管理等能力,提升资源批量管理和CI/CD等自动化任务的效率。在可靠性方面,用户可以借助实例的健康状态、系统事件等,及时了解ECS是否正常运行,同时还可以借助实例健康诊断工具,快速定位ECS无法正常使用的问题。弹性能力是云最基础的能力之一,阿里云的弹性伸缩ESS、弹性供应、容量预定等能力,不仅能快速解决临时大量算力需求的场景,而且还能自动根据业务负载波动,自动进行实例的扩缩容,提升应用的可用性。在安全合规维度,ECS提供了丰富的能力,不仅帮助用户提升实例系统层面的安全性,而且还能通过访问控制、标签策略等实现精细化的权限控制,实现安全可控的运维。


在了解了CloudOps的基本概念后,本次分享重点围绕两个产品的重磅更新。第一个重磅发布是运维编排OOS产品的全新升级。

自动化提效是一个老生常谈的话题,但随着云上客户的业务环境越来越复杂,尤其是多云和混合云环境成为企业的主流选择,如何实现统一运维界面且高效管理成为新的挑战。在这个基础上,阿里云的运维编排服务OOS进行全新升级,升级后的产品名称变更为“系统管理运维服务OOS”,定位是混合云和多云平台下的系统管理中心,聚焦于系统管理和系统运维。升级后,系统管理运维服务除了之前的自动化任务编排能力外,还增加了补丁管理、参数管理、配置清单和应用管理等能力,专注于统一管理并存储计算节点内系统管理与配置的各种场景。




下面是系统管理服务OOS升级后的典型场景。升级后,系统管理运维服务借助云助手插件,可以将线下IDC或其他云的机器托管到阿里云,这样在阿里云上即可看到混合云或多云下的所有机器。在这个基础上,用户可以对这些资源打上标签进行分组。当计算节点经过统一的纳管打标之后,用户即可对所有的资源进行统一批量运维,包括通过补丁管理自动完成计算节点操作系统的补丁定时修复,采集并存储计算节点的操作系统内的参数配置,或批量对计算节点执行自动化任务等运维操作,从而提升多云和混合云环境下的运维效率,降低运维复杂度。



第二个重磅发布是ECS使用成熟度评估与洞察,简称ECS insight的重磅发布。

虽然CloudOps定义了云上用户关注的五大维度,也提供了一些列工具去解决各个维度的问题,但我们发现很多用户需要的不是事后响应,而是提前预防防范于未然,或者不想解决点状问题,而是希望全面体系化的解决业务风险。在这个基础上,我们推出了一站式的用云解决方案ECS insight,它会根据用户账号下所有ECS实例和关联资源的使用情况,包括付费方式、资源分布、业务负载等,然后基于机器学习的算法对资源在过去30天的历史使用数据进行建模分析,并结合云上运维最佳实践,最终给用户两个结果。

  1. ECS使用成熟度评估的结果:这个结果会从CloudOps定义的CARES 五大维度,加上ECS基础能力一共六个维度进行评估,每个维度满分100分,总共600分,采用扣分制,即识别到该维度存在风险项未修复时,则扣除该评分项的分值。
  2. 对于未得分项,根据风险严重程度进行归类展示:ECS insight的严重程度分成五类。高危项意味着用户需要立即修复,否则业务存在严重风险;警告项意味着用户需要尽快修复,而提示项则意味着nice to have,用户可以看看更高效的解决方案,至于健康和不适用项,用户可以直接忽略。对于所有未得分项,ECS insight都会提供该问题存在的风险,受影响的资源列表,对应的修复方案和最佳实践,以及快捷操作入口,方便用户快速完成从发现问题到解决问题。



下图所展示的目前ECS Insight的能力全貌。

  1. ECS基础能力:识别云上资源的分布、使用情况是否合理,避免单个资源的常规性风险。
  2. 成本洞察能力:评估ECS等关联资源是否采用了合适的付费方式和成本管理工具,在避免不必要的成本浪费的基础上,端到端的进行成本管理
  3. 自动化能力:反映了用户当前在ECS管理运维上的自动化水平,同时也为用户提升自动化水平提供了对应的路径和工具,用户借助自动化工具能更高效地解决日常运维的痛点。
  4. 可靠性能力:识别业务是否存在稳定性风险,避免因。
  5. 弹性能力:识别业务的可用性风险,避免因弹性资源不足或超出配额导致扩容失败的风险。
  6. 安全性能力:识别业务存在的安全风险,避免因安全攻击或权限过大导致的操作风险。


用户可以前往ECS控制台概览页的「ECS使用成熟度评估与洞察」页面体验该产品。



接下来为大家带来分享的是北京数美时代科技有限公司首席架构师陈建,他将从基于CloudOps能力提升云上业务的安全稳定的经验的角度为大家做详尽的分享,同时为大家介绍了两款重要的产品:天网和天净。


陈建 北京数美时代科技有限公司首席架构师


1、智能业务风控产品——天网


业务风险的范围很广,因此在介绍产品之前要先了解数美解决的业务风险问题。以互联网C端App为例,该App产品的整个生命周期都围绕着一点,即用户的获取和运营,因此,它在流量推广、用户注册激励、活动激励等方面投入大量的资金,但是这大量的资金投入是否达成了预先设想的转化目标,是否获取了相应的收益,这一点无法预测。


因为互联网有一批人从事黑产活动,使用虚假的流量寻找低质量的用户,耗用了大量的运营费用,导致运营经费的不对等消耗。数美的产品天网就可以帮助用户解决这个问题,可以帮客户识别虚假流量、虚假用户、低质用户,让客户的运营成本真正花到实处。



天网产品的使用非常简单,它提供了一个API接口,客户只需要把相应的行为如注册行为发给数美,数美就可以通过用户以及用户的行为进行综合识别,区分虚假用户、低质用户和正常用户,并把结果反馈给企业,企业就可以根据反馈结果进行决策,将资金发放给正常的用户,提升运营转化效率,对于互联网客户来说相当于是一笔可观的收益。


2、智能内容风控产品——天净


如果企业在自有的平台中有相应的内容,可能会带来监管类的风险以及内容的平台氛围风险。如果不对内容风险进行管控,企业的运营会受到极大的影响,同时,企业平台的氛围或平台的质量也会有较大的下降。


例如,一个APP中有几百万用户,或许会发现其中广告含量占比极大,这会导致用户体验感很差,数美的天净产品就是为解决此类内容风险问题而生。



天净产品有三个特点,第一,支持全媒体格式的识别,包括最基础的文本、图片,再到音频、视频文件、音频流、视频流,都可以支持;第二,支持全行业全风险内容的覆盖,内容风险本身很难定义,如判定一幅图涉及淫秽色情,其判定的等级分为很多档,但其风险定义非常清晰,数美内部定义了上千种业务标签,将所有的内容风险进行了清晰的定义,这样客户就可以针对不同的风险做细粒度的控制;第三,很多不同的行业、不同的场景,而同一个风险在不同行业、不同场景的管控力度不同,数美支持对不同场景进行灵活配置,提供对具体内容的每个风险的管控方案。


阿里云弹性计算高级产品专家王凌志则围绕CloudOps Insight,介绍如何基于多样化的弹性计算产品类型,在用户业务场景中实现垂直、水平等不同维度的弹性应用最佳实践等多重角度进行了分享。


王凌志 阿里云弹性计算高级技术专家


1、弹性计算两款计算力在线上的表现


ECS是阿里云在2019年孵化成功的一款以容器为计算单元的基础设施产品。



以下展示的是最新测试的产品在线上的表现。可以发现,目前最高测试值为ECS、ECI线上交付效率达到了5000实例/min左右,弹性成功率达到了99.99%(该数据可能与5年、乃至10年前老旧机器的利用率低下有关,拉低了整体的统计数据。


实际上,最新机器的通用算力几乎可以达到99.999%、99.9999%,乃至99.99999%的成功率),日弹性规模约为2000万核(100台100核是一台物理机,2000万核相当于20万台物理机)。



2、容器弹性—容器服务 ACK serverless


即ACK serverless + ECI的组合式的容器场景的总体解决方案,这是容器场景的弹性最佳实践之一。



ACK serverless是K8s为标准交付页面的 Serverless 容器服务。其特点有四:第一,在集群运维层采用云上全托管的,无需关注自己K8s的apiserver、etcd等各类组件;第二,简化异构管理,企业不同的业务可能会使用不同的架构管理,可能是amg架构、arm架构、gpu架构、windows架构等,若要对各种架构都做节点,K8s的管理复杂度会非常高。在此情况下,可以使用serverless架构,因为serverless架构无节点,因此,客户可以利用一个集群同时管理异构的各种各样的规格;第三,在成本方面,继承了ECI和ECS的按秒计费、Spot/U大资源池等;第四,极致弹性,它可以重用ECI,因此,在极致弹性方面,它继承了ECI极致的弹性能力。


3、大模型推理弹性—应用与模型解耦


要运行一个容器,需要拉取镜像,否则无法启动业务,接下来进入镜像缓存细节。



在使用云时,镜像储存在云上,在运行container时,该container也存储在云上。因为serverless container对用户的交付界面的变化,可以做到避免数据移动。就像块存储,将数据存储后,在启动过程中内存加载时无需重新拉取数据,可以直接从存储位置拉取加载到内存即可。近一版的镜像缓存就出于云上一体全站优化的理念,它的核心理念是避免数据移动,进而节省拉取镜像的时间。


在早期,阿里云只有镜像cache。2022年有一自动驾驶的客户,其容器镜像高达200G,而其实际应用只有1~2G,仿真数据占用了大量内存。客户从阿里云提供的镜像cache仿真数据,一次运行10000台ECI,这些ECI都要访问这些仿真数据,这样就可以将这些仿真数据放到镜像中,开始使用镜像缓存模式来加快数据的加速。


近期AI大模型爆火,大模型内存动辄几G,甚至上百G,但这些场景都是相似的。阿里云在镜像缓存的基础上进行镜像数据隔离,推出数据cache,此时,用户在CICD结束后,采集到的仿真数据只需放在OSS/NAS中,触发data cache的制作,运行Pod就会非常容易。这样,镜像不需要数据移动,客户依赖的大模型数据、仿正数据也无需移动,大大提高了加载速度。


  1. 某TOP 客户 serverless大数据实践


以上是一个精简的大数据surveless的场景,该客户也经常在其他厂分享一些survless大数据的Topic。



其整体方案包括:第一,用户会Driver Spark集群中的Driver Pod创建在ACK常驻节点或普通的ECI上,以保证Driver节点不会被移除;第二,配置多可用区、多规格,保证大量的库存;第三点,一定要配置Spot,保证了Driver的持续运行,若executor停止运行,重启一批即可解决,保证任务执行成功。


这利用了阿里云提供的Spot forward/back普通实例功能。据用户反馈的收益数据,可以得出大数据surveles改造成本降低了50%以上,报告产出提前了30%,单日任务达10万+,单日ECI数量达200+万台,650+万核。


5、ECI - Serverless Container 增效降本


该部分主要涉及到近期ECI重磅发布相关的内容:



(1)普惠降本


目前只有企业通用型的实例,近期阿里云会推出一款企业经济型实例,相比现在的价格下降约40%,现有企业通用型实例的价格也会下降15%左右。


(2)极致性能


同时,阿里云还会推出高性能实力,且价格不会高于现在的通用价。


(3)弹性加速


在弹性能力方面,阿里云也做了一些AI方面的实践,基于用户的历史业务特征,通过预调度提高用户的弹性效率。目前发现一些线上客户的并发弹性量已经可以达到7000/min以上了。


(4)灵活提效


另外,如今AI发展迅速,这对GPU的启动速度提出了要求。目前,阿里云支持了多GPU版本的选择能力,对GPU实例的启动速度提升了近60%,同时在异构方面,除了历史上已经支持的等Arm、AMD等架构,也支持即将发布Windows 容器,尤其是游戏渲染等行业,或是依赖于Windows的办公软件等业务后续都可以使用ECI。


接下来带来分享的是深势科技总架构师李样兵,他将分享其弹性计算应用最佳实践。


李样兵 深势科技总架构师


  1. 深势科技简介


深势科技成立于2018年,致力于应用人工智能和分子模拟算法,结合先进的计算手段求解重要的科学问题。深势科技提出了多尺度建模、继续学习、高性能计算三个方面结合的范式,在此之上发展了Bohrium微尺度科学计算云平台,以及之上的Hermite药物计算统计平台和Piloteye电池设计平台,进而打造了一系列微尺度的工业设计和仿真平台。



深势科技已建设300+全球领先算法,技术实力强劲,使用DP算法发表文章数达600+,承接国家级课题项目数10+,团队科学家人数(博士)70+。


2、AI4S算力特点


主要体现在两个方面,即峰值极高和极致弹性。


下图中左侧是Unifold训练图,需要128张A100卡训练5天,Unifold是深势科技推出的蛋白结构预测工具,对标 google Alpha Fold。


右侧展示的是一个DPG训练任务,DPGen任务主要分为三个步骤:探索相空间、进行第一性计算以产生数据集,以及模型训练。以第二步为例,这一步需要1万张CPU卡,这也是与传统大模型超算的区别点,AI4S需要大量的CPU资源。



3、云、超一体:高效的算力解决方案


深势科技提供“云+超算”一体化的解决方案。超算在阿里云有AGPC集群(标准的超算环境),在云上的特点是弹性,云有极大的弹性,但超算有其自身的特点,包括高效的    网络,超算适合做多节点并行任务。在结合任务特点、算力特点的基础上进行整合。



解决方案的架构分为四层,最上层是用户交互层,下方是应用层,这里的“应用”与传统的AI应用、互联网应用不同,更多的是第一性原理的工作软件、工作流的套件等,再下层是正常的功能支撑,包括用户系统,权限系统,调度系统等,最下层是计算资源调度层,包括云上弹性资源,超算资源,以及各类K8S云原生解决方案。最下层是统一的存储,因为要建立云与超算融合的算力平台的关键就是统一的存储,进而实现灵活调度。若存储分散,就无法根据任务的特点实现灵活的调度。


4、统一存储,存、算分离



存储架构分为四层:最上层是业务层,包括数据集、共享盘、数据可视化、notebook和任务输入与输出,在突出应用之后,提供标准的接口rpc、NFS、CSI,能够根据业务的特点与用户的需求适配不同的接口,这一层用户不需要关心存储介质,可以聚焦于业务需求;第二层是调度层,主要的目标在于将用户的需求与资源特点匹配;下一层是算力层,在算力使用资源时,高效使用、存储是关键,因为不同的存储介质性能不同,价格差距也很大,如进行计算时运行A100机器,计算资源相对昂贵,此时则希望存储性能和吞吐量较高,这要通过不同算力在最底层寻找不同的存储介质;最底层是介质层,包括NAS、OSS以及CPFS等,这里阿里云较为常用的存储介质。


5、开发平台架构选型


在选型的过程中,我们从隔离性、安全性、用户体验、稳定性等多个角度对比了ACK与ASK的区别,经过全面的比较和评估,ASK方案远远优于ACK。



其实,在选型过程中也走了许多弯路。最早深势科技选择的是ACK方案,最终发现该方案中制造镜像的次数存在限制,约为100次,这样这会影响超额部分镜像的制造。因为在ACK中,开启了一个Pod之后,为保证良好的环境,唯一的方法就是制造镜像,导致机器宕机,为架构师的工作带来了极大的挑战。


在选择ASK方案时,许多功能阿里云并不支持。如基于ASK制作镜像,由于ASK无主机节点,只有拥有主机节点才能执行commit操作制作镜像,否则则无法制作镜像。在阿里云与深势科技的合作下,经过两个月的开发,使得ASK支持了开机加速、镜像制作、缓存加速等一系列的功能。


6、ECI+Spot实例 大幅降低计算成本



深势科技早在2019年选用阿里云时使用的就是Spot实例,其具有以下几个明显的优点:


(1)极低的折扣其价格约为按需计费的10%~20%,使得计算费用大幅降低。


(2)极低的释放率即Spot实例释放是否可用,这比较的是性价比,即在Spot实例释放后要进行何种操作。在科学计算场景下,会有一定的失败的概率,但对于我们本身需要做两方面的工作,首先是重绑和断点续算的功能,这需要在架构和软件层面进行设计,保证资源真实被释放;同时,记录用户已经计算完成的数据记录下来,将对业务的影响降到最低。


(3)自动转按量这里包括两个功能,其一是自动转按量,此外,当最初有一固定池,有限选择按量资源,这也是阿里云最新的功能,利用这些功能按需搭配,既可以保证应用的稳定,同时也可以收获更高的性价比。


7、AI4S时代平台化科研最佳实践——协作科研&上机教学


这实际上就是前面提到的上机活动场景,该场景存在同时开机的情况。它提供了Bohrium Notebook交互式学习体验,可以极大地提升学习效率;同时提供了成员管理预算管理,能够帮助项目负责人一目了然了解资源投入与分配情况;此外,也方面了教师和学生之间进行代码的调试。



接下来由阿里云弹性计算技术专家杜文彬和阿里云弹性计算高级技术专家钱超共同带来分享,他们系统介绍了阿里云是如何构建ECS实例稳定性核心能力的,包括基础设施、预防体系、守护体系、客户侧联动体系等,并让ECS稳定性可被用户理解与观测。同时,还将从风险规避、问题容错、问题诊断等方面,结合云原生Demo应用,具象展示应用在ECS上的稳定性最佳实践。


杜文彬 阿里云弹性计算技术专家


钱超 阿里云弹性计算高级技术专家



1、ECS建设目标


阿里云对ECS建设提出了一个十分振奋且具有挑战性的目标,即利用x86的硬件,提供小型机级别的稳定性,即ECS实例的稳定性超越线下X86物理服务器的的稳定性约一个数量级。



2、ECS稳定性建设面对的挑战


为了达到该目标,则需要应对较大难度的挑战。面对的挑战主要来自于ECS复杂的架构和庞大的规模。



(1)复杂的架构


可以看到ECS架构中底层是基础设施,包括物理服务器、物理网络、IDC等;其上是阿里云OS内核;在此之上是CIPU、块存储TDC、云网络、管控运维等组件;在此基础之上是核心的虚拟化组件,可以虚拟出弹性裸金属、VM、ECI实例等多种形态;最上面是阿里云提供给客户额Guest OS镜像能力。可以看到ECS的架构链路很长,其中的任何一个环节存在问题都有可能导致ECS实例,因此ECS架构十分复杂。


(2)庞大的规模


ECS实例遍布全球30多个地域,80多个可用区,超过5000个集群,以及百万量级的服务器。对于这样一个超大规模的分布式计算系统,其稳定性非常复杂。


综上,ECS稳定性建设十分具有挑战性。


3、量化问题:从客户体感视角全面度量稳定性过程和结果


通过一套完整的客户体感指标体系来衡量ECS实例稳定性的体感,包括在客户体感结果指标和技术指标两个方面进行设定。



(1)技术指标


针对实例宕机,设定了宕机率和Guest OS panic率两个指标,前者用于衡量宿主机物理服务器的稳定性,后者用于衡量用户操作系统一侧的稳定性;针对实例夯机,设定了夯机率;针对实例性能抖动,设定了实例有损率;针对实例主动运维,设定了主动运维率指标和事件响应成功率指标,前者用于衡量主动运维的频度,后者用于衡量事件相应的成功率。


综上,还提供了归一化的客户体感可用率指标,从实例的不可用时长来综合刻画技术层面客户稳定性的体感。


(2)结果指标


主要是通过客户反馈的维度进行衡量,分为工单和客情两部分指标进行设定。在工单方面,设定工单数量、工单处理时长和数量时长积分三个指标;若工单处理效果不佳,有可能会升级为客情,因此在客情方面,对应地设定客情数量、客情处理时长和数量时长积分三个指标。


综上,提供了归一化的客户体感稳定性客诉率指标,综合衡量客诉水平。


希望通过这样一套完整的体感稳定性指标刻画客户的稳定性体感,同时量化ECS稳定性建设工作带来的成效。


4、解决问题:弹性计算稳定性系统工程


我们将ECS的稳定性当作了一个系统性的工程进行建设。最底层是基础设施支撑体系,再上层是数据和算法中台,是整个工程中的核心底座。在此之上是线下预防体系、线上守护体系和基于事件驱动的客户侧联动体系三大体系。线下预防体系会覆盖产品的设计、适配及验收,产品设计中明确地提出硬件和稳定性的标准;产品适配会进行基础设施和业务方面的适配;产品验收则会提出明确的稳定性准出标准,并进行相应的测试验证,产出对应的测试报告。


线上守护体系包括五大核心能力,分别是智能故障预测能力、灰度发布能力、监控诊断能力、异常调度能力和故障快恢能力。事件驱动的客户联动体系包括事件中心、事件订阅和事件响应。在特定客户的特定场景之前,可能对ECS的稳定性还有更高的诉求,此时还会有相应的稳定性重保体系进行支撑。



5、云上应用稳定性最佳实践概览


云上稳定性实践主要分为三大类,即风险规避、问题容错和问题诊断。



在了解风险之前先了解其载体,参照一下DEMO演示:



天猫商城DEMO具备天猫商城相关的所有功能,包括商城首页、下单、付款等,基于该DEMO即可感受该实践DEMO。天猫商城是一个SpringBoot应用,使用标准的MAC架构,在上云后通过K8s部署即可感受到其玩转K8s的过程。云上的K8s相对复杂,包括存储、网络、虚拟机等的部署。


最后由阿里云弹性计算技术专家李化楠、阿里云弹性计算技术专家樊超、阿里云弹性计算高级技术专家张尤共同带来分享,重点介绍了阿里云在智能监控体系建设中采集、诊断、智能运维以及自动化运维能力的各个核心组件的技术架构和设计思考。


李化楠 阿里云弹性计算技术专家


樊超 阿里云弹性计算技术专家


张尤 阿里云弹性计算高级技术专家


=

基于前面提到的各种场景,我们设计出了客户侧的运维事件以解决相应的问题,并将客户侧运维事件的定义分为三个部分:


(1)类型


客户侧运维事件是两段式的,第一段表达的是事件场景。若为SystemMaintenance,表示的是计划内的主动运维事件;若为SystemFailure,表示的是非预期且发生的事件,此时就需要客户进行实例的确认,判断该故障对用户的影响。第二段表达的是事件的影响面。如果推出的影响面是Reboot,SystemMaintenance Reboot事件表达的是一个计划运维预备要重启的事件,则SystemFailure Reboot事件表达的是底层已经发生了非预期的宕机,自动重启帮助用户做了相应的恢复,用户可再对应用情况进行确认。


(2)状态


包括6种,Inquiring表达的是一个问询中的事件,如果用户没有进行响应,平台侧不会进行运维侧的干预;Scheduled表达的是计划执行种的事件,通常该事件会有计划执行时间,如果用户在计划时间之前提前相应,规避了风险,事件状态就会流转到Avoided表明该风险已被用户提前规避,风险已结束。


(3)时间


一共有4个时间节点。第一个是PublishTime,表示推送事件的时间,即客户收到事件的时间;第二个是PlanTime,表示计划执行时间,通常一个Scheduled的状态事件都有一个PlanTime;在到达该时间之后,平台就会根据该时间的类型选择相应的运维动作执行,用户也可以在该时间之前根据自身业务的高低峰事件提前规避运维动作;StartTime与EndTime分别表示事件实际开始时间和结束时间。


2、与客户共同完成完整的运维事件过程


理解了事件概念定义之后,进一步了解整个运维事件。



当在底层发现服务器存在硬件隐患的时候,就会向客户推送事件,客户也可以通过自身的监控,在发现隐患异常时,通过异常上报或自诊断的方式将信息反馈给阿里云ECS平台,阿里云在收到用户反馈之后就会结合自身的数据分析重新向客户推送事件,用户在收到运维事件之后,可以通过运维事件列表的授权或直接操作资源进行运维相应,平台在收到用户的相应之后,就会进行实例的重启,以及资源隔离、迁移等动作进行运维执行,同时更新运维状态到执行中。


如果最终资源达到了运维预期的状态,该事件就会闭合,整个事件的推送、状态变化、生命周期都可以通过Open API、控制台及云监控订阅的方式实现准确、实时的感知。这样就与客户一同基于用户的运维事件闭环完成了一次线上运维。


3、ECS自诊断工具总结


最后对以上提到的“一眼排障:健康状态”和“一键定位:健康诊断”两种故障检查进行总结。



用户在运维过程中会遇到各种各样的问题,在遇到问题时,首先排查健康状态,根据不同的状态值判断当前ECS总体的问题,再利用具体的诊断工具详细定位,且根据其提供的解决方案,人工地按照步骤恢复ECS。


以上就是本次【CloudOps云上运维专场】的全部分享。

相关文章
|
1月前
|
存储 运维 Cloud Native
阿里云国际CloudOps的优势和云上运维的特点
阿里云国际CloudOps的优势和云上运维的特点
|
5月前
|
运维 监控
如何使用OOS有效进行云上自动化运维
OOS(运维编排服务)是一种云上自动化运维工具,可以帮助你有效进行云资源的管理和维护。以下是如何使用OOS有效进行云上自动化运维的一些建议: 1. **利用自动化能力**:OOS提供了批量操作、
|
4月前
|
运维 监控 安全
云上智能监控:引领未来安防与运维的新纪元
通过智能视频分析技术自动识别违章行为(如闯红灯、超速等)并触发报警机制。同时结合交通流量监测和信号灯控制功能实现交通流量的优化和拥堵缓解。 智能零售监控:在零售行业中云上智能监控可以应用于店铺的客流统计和商品管理。
|
4月前
|
人工智能 运维 自然语言处理
|
4月前
|
运维 监控 Serverless
探索Serverless高可用架构:云上极简运维的新篇章
随着云计算的快速发展,Serverless 架构因其无需管理服务器、按需自动扩展等优势,逐渐成为企业应用构建的重要选择。阿里云提供的 Serverless 高可用架构解决方案,通过结合多种云服务,提供了强大的高可用性和自动化运维能力。本文将评测阿里云 Serverless 高可用架构的核心功能、优势及其应用场景,帮助读者更好地理解和使用这一解决方案。
|
4月前
|
运维 监控 安全
云上智能运维:重塑IT运维的未来图景
深度学习等技术实现更加精准的故障预测和性能优化。同时,随着云计算技术的不断成熟和普及,云上智能运维将实现更加灵活、高效的资源管理和服务交付。此外,随着安全技术的不断发展和完善,云上智能运维将更加注重数据安全和隐私保护,为企业提供更加安全可靠的运维服务。
|
4月前
|
运维 Prometheus 监控
「架构」云上自动化运维及其应用
企业在云上采用自动化运维,通过Prometheus+Grafana实现监控,Ansible进行配置管理,Jenkins+GitLab+SonarQube支持CI/CD,提升效率,降低成本。关键指标包括系统可用性、故障恢复时间等。通过自动化监控、配置管理和持续集成/部署,保证服务稳定性,促进快速迭代,确保市场竞争力。持续改进与培训是维持领先的关键。
152 0
|
6月前
|
弹性计算 运维 安全
如何使用OOS有效进行云上自动化运维
阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。
134209 220
|
6月前
|
弹性计算 运维 监控
【阿里云弹性计算】云上自动化运维实践:基于阿里云ECS的自动化部署与管理
【5月更文挑战第27天】阿里云ECS自动化运维实践:借助ECS API和SDK实现自动化部署,通过Python示例展示实例创建。利用Ansible、Docker等工具进行配置管理和容器化,结合CloudMonitor和Auto Scaling实现监控告警及资源动态调整,提升运维效率和系统稳定性。
309 0
|
1月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
52 4