【视频】-《OOS 与总结》 | 学习笔记(二)

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
系统运维管理,不限时长
简介: 快速学习【视频】-《OOS 与总结》

开发者学堂课程【企业运维之弹性计算原理与实践【视频】-《OOS 与总结》学习笔记(二),与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/1039/detail/15320


【视频】-《OOS 与总结》

 

内容介绍:

一、云上运维的挑战

二、OOS 基本概念

三、OOS 模板

四、OOS 案例

五、总结

OOS 做一些运维编排上的一个动作。是因为其实有很多这种企业级的客户,或者是做运维的同学好,其实都是想要通过一些这种比较快速的方式,能够对于云上的资源进行一个比较迅速或者说比较自动化的一些运维的方法。如果是在这种情况下呢,每个云厂商它的一个做法是不同的,有的可能会这种批量调用 API ,有的可能会通过一些写一些这种脚本,比如说阿里的一个 cra 这些方式来去做,本身阿里云它其实也是提供了一个方式去让你统一的去编排,或者统一的去对云上的实例做一些操作,然后我其实也不光是ecs甚至是其他的产品,比如 rds 和 slb 这些其实都会用到批量去做一些运维的操作。 OOS 这样的一个产品。然后第二个说对于 0os  0ss 可能不是特别清楚,因为个 OOS 它其实它的概念叫 observation of service 。做的是运维的一些编排。 oss 其实是针对云存储的一个概念,我们讲一些什么云盘或者oSSBucket 上面做的一些东西。所以其实是不太一样的,第三个说有的同学反馈说是希望加入一些技术编程的知识。最后技术编程这些知识其实这样的,OOS 地方会涉及到一些语法的编写。包括之前可能还没有讲到的一些,比如可以用一些 share 之类的,但是因为这堂整个体系针对的是企业运维的一个基础课程,针对的客户更多的是比如说刚刚接触到 eCS 或者接触到弹性计算的这一部分运维同学,以及对于运维比较了解,想要知道一些大型企业客户或者是中宝的时候,需要注意哪些地方的这些最佳实践的一些同学。在这些方面编程其实是没有涉及到的。如果对于技术编程有一定要求的一些同学,或者说想要了解更多的知识,可以多多去关注开发者学堂的一些其他的课程,我们其他课程也会涉及到,比如说 DEVOPS 类似于这样的一些服务。当这些课程可能会介绍一些编程的部分。


四、OOS 案例

接下来OOS 的一些案例, OOS 的一些案例还是有很多的,平时因为所使用的第一个告警驱动,然后自动地去做清理磁盘。image.png

1、告警驱动自动清理磁盘

一般它的一个动作从因为这些其实很多客户来问要么能不能自动化出来,要么是自动性磁盘或者自动去做库容,这里面其实给到的一个方案可以去做自动清理磁盘。然后这种希望写的是把具体的删除动作可以自己去去做一些配置,比如举个例子,个有一些 ng 的 log 或者是 tomcat 的 log 。在这种情况下其实是可以通过批量删除一些老的一些日志,类似于这样的方式来去做监控或者做一些运维,通过云监控的方式,它能够去做一些简单的一些告警。如果告警到了具体的一些实例,可以去通过 OOS 来调用云助手执行一些指令来清理磁盘,看一下具体的一些案例,然后首先可以在公文模板上找到清理磁盘,image.png

已有的动作包括他的一个执行的一个过程,先不创建先看一下它的具体是怎么写的,这样方便大家更好去了解,做了操作刚才看了一下 YAML 然后 YAML 其实 JSON 也是一样的,他们两个没什么区别,首先是 FORMAT 都是一样的,就 OOS 的一个版本, api 的版本,接下来是 description ,这块正常也可以去忽略掉。然后接下来去看  parameter 是比较重要的。image.png

time trigger 尤其是对于定期处理一些问题的,比如要定期做开关机,肯定会有一个 time trigger ,而通过 time trigger 来去做一些定时的处理。具体的一些模板的形式,其实是类似于这样的,会有一个他是一个 JSON 的 type ,然后然后还有一些名字,然后他所 associated 的 Propertyproperty 在里面输入就比如在真正想要去跑的话,跑一下就可以看到,是输入的一个地方。然后接下来要跑的 region 。所有的 parameter 设置都是类似的,有一个指定好的一个你可以管它叫做 parameter 里面的一个类型。然后里面有他的定义的类型数据类型,然后它的一个使用的 labeL 就我用来单独标识它的以及它所依赖到的一个书的参数。最后我的一个目标实例不一样的地方是这里要定一些磁盘的规则,这里面去清理到底清理哪些数据,清理哪些位置的一些数据等等image.png

这些都是可以配置,最后所强调的一些并发的一个比率来保证说我跑的不会受到留空,然后以及保证系统它其实进行不会超负荷等等,然后后面我们谈到的 ASSUMEROLE 扮演些角色。然后其次我 task 我真正要执行的动作.真正要执行都有哪些?image.png

首先是我会去做一个指定类型,也指定按照我的类型以及表达式来进行出发,里面会用到表达式方式来指定什么时候开始,什么时候结束,然后针对等等。然后后面我会去做 filter 相应的一些 get instance ,拿到获取到实例 id ,然后接下来会去 clean up disk ,clean up disk 具体的操作去执行云助手,然后地方会去做相应的一些命令的输出。再看一下 JSON,JSON 其实大同小异,前面的 format 的 description 都是类似的。image.png

在这里面其实他更清楚的 Jason 可以我定义到每个类型 time trigger,REGION id, 然后相应的一些参数其实也都是类似的。我们看一下 task 的过程也是。其实里面的写法都是比较相近的,只不过在于你想要去做相应的改造的时候,怎么去把它相应的填进去,里面去看一下它流程的一个配置是可以怎么去定义,其实会把我整体的一个过程可视化出来,首先参数需要配置的一些需要输入的一些东西,会以参数的形式 parameter 形式列出来,然后的task 。image.png

一个是针对 time trigger 针对时间来去做出发,因为它是顺序执行的,第二步会去获取实例 ID ,第三步会去执行我刚 Task 定义的 cleanup disk 这样的一个操作,操作具体 cleanup disk 去跑 run command 是去 delete 一些动作。真正去做创建的过程这样子,比如里面定义一个清除脚本,然后比如用公共模版,然后定期处理自动执行。然后可以指定相应的 resource id,image.png

因为账号并没有做太多的资源创建,所以说然后她现在是一个默认的一个 id 。然后接下来会去执行定时的任务,到底我是立马就去执行,还是会去周期性周期性执行,对于问题我可能每几天我这边可以选,比如隔一天或者每隔一周我去做一个相应的执行。然后它会有一个执行的预览,比如说我每小时去执行一次。地方都都是可以去做更改。每天都可以去执行一次,然后去判断我的会去做相应的一些磁盘的一些清洁的动作。然后这里面会指定比如说你使用哪个什么样的格式去做。然后可以去加文件到底保留多长时间?它其实已经制定好了,所以说就会有相应的一些云助手脚本在里面跑。然后 region ID ,你要指定相应的一个地域。然后在这里面我可以目标实例,我可以通过各种各样的方式来去做,比如可以指定资源组,可以指定标签。image.png

可以用这种自己去上传一个 csv 的方式。如果你不指定地方其实就会你可以选择所有什么什么,然后再去做调整。然后地方谈到的留空它的一个病发率,病发控制是不是有相应的速率?然后如果我任务执行失败,是否有些重试。可能会有一些容错的一些概念,最后OOS 的去扮演一个角色,里面你可以自己去创建,比如在这里面我需要去创建一个 OOS service role 。可以去根据他的提示点进去。现在是没有的,怎么去给他去做创建创业出来之后去把他的权限做相应的管理。比如针对问题,实际上是去写定时清理 disk 。定时清理是 disk ,首先它需要去读实例,要有一个  get instance  的权限,其次需要有一个去执行云助手的权限。所以说我如果想要做最小化的一个权限控制,需要去赋予这样的两个选项给他。然后以此我们可以做相应的一些比如说自己自定义的一些编写,包括针对某种类型比如说。针对一些告警来去做这些操作,其实也是有的,比如说针对 alarm ,刚才其实我提到的是 timetrigger。image.png

可以通过一些告警来做相应的一个配置,这里面其实有相当一些比如说我在 parameter 里面我有定义好的 threshold ,之后的对于 task 。其实它整体的 task 他也是有相应的动作的,image.png

可以去针对 ecs alarm trigger 这样去做,然后他的 propert我的对于云监控上面的一些参数去做的一个配置,对于 namespace如果了解的话,各个云产品,它会有相应的一个 namespace 来去做对应的数据的摘取,你可以把它想象成索引,然后索引里面我才会去走下一步的 disk 层面来说,这是如果地方是 ecs 上线, r ds 更多的可能另外一条东西了,比如数量以及一些索引的一些数据等等在地方会做相应操作,这些对于 API 的了解要比较熟悉,所以能够更好的去编写一些自定义的一些模板等等。看到控制台上,其实有很多的一个选项,其实很多都是直接打包整理好了,比如说批量操作批量管理软件,可以点进去看一下。说它其实都有已经做好了一些模板供直接使用。这些都是一些常见的一些运维的任务。比如创建的时候,会有一些常见的一些选项,比如说我去安装卸载,像些相应的一些软件包的一些服务等等。它其实地方比如说我我正常应该叫个 nfs-utills 这类似于这样子的一些形式。image.png

然后去做操作,所以是比较友好的在控台上去给你配置好,如果要做一些高级的,可能就从自己的模板去做相应的管理。然后刚才讲到了第一个实行的案例。第二,一般来说平时会用到的比较多的周期性的一些镜像的分析发布。这也经常说的,需要打一些补丁,需要去批量的去做一些 CACD 的一些操作,比如在新的镜像里面,需要去安装一些软件等等。可以通过周期性的一些发布。image.png

2、周期性基于镜像的分批发布

用 OOS 的方式来去从开始的创建实例创建新的镜像,到批量的去更换它的 ecs 。这些都是可以做到的,因为首先刚才讲到的更换新镜像的操作,其实已经有现成的 OOS 的模板了。接下来将新镜像,可能在通过第二个第二个任务。更换信用卡的操作来去一个一个去做更换。它可以以顺序的方式去执行执行的时候。可以把  ecs 从我 SrB 的后端权重置为0,然后再去做操作。通过这一系列的方式来把周期的镜像发布做完,并且合理地替换到 SLB 背后的些服务,并且业务上不受到影响。这一整套都是可以通过自动化的方式来实现的。

3、基于标签对 ECS 进行资源管理。

然后接下来第三个针对于标签对 ecs 进行管理。image.png

其实也是我们刚才提到的 parameter 以及 task 当中有一些动作,比如说 e cs 的 api 支持通过标签查找。

通过标签可以找到相应的 ecs 的资源。你通过这种方式找到资源之后,对于 eCS 内部无论是去做一些系统调用或者做一些软件安装,或者是我通过 filter 找到对应的一些 ecs ,然后再调用 API ,都是可以去操作的。然后里面有几个比较 key 的一些 filter 。刚才讲到的说支持跨地域包括支持失败重试。第二可以跨地域去做相应的执行。一些企业用到些真正使用些场景,比如一些企业它通过用运维编排来提高它的一个效率。刚才讲到了一点。他用到了一些弹性伸缩用到一些 SLB 的情况下,可以通过 OOS 提供更新镜像的这样的一个模板,就批量的部署,然后并且针对于弹性会做相应的一些调用,弹性伸缩其实在 OOS 的环境当中也是支持的。然后最后通过这种方式能够实现本身单色的线上发布,从150分钟缩短到了10分钟,而且整体的动作全部都是自动操作的。然后并且提高了运维的发布的频次。然后整体因为 OOS 它对它对接了很多的云产品其实都是开放的,比如刚才讲到的一些 ecs ,然后 rds,srb,ess 等等这些产品。因为这些产品有了相应的联动,所以说它可以能够真正做到无缝衔接,把这些产品穿起来。

(1)limitation

OOS 它有一些 limitation 这些 limitation 其中一点,就包括他虽然说知识产品,但是有一些产品比如说大数据就比如说 emr 这些目前还是不支持的原因是因为就对 emr 的一些操作,包括使用场景下来不是很多。所以说而且 emr 整体它是一个集成的方式,不是直接进行管理的,然后第二个在一些企业当中会用到个运维编排来去做相应的一些流程的一些发布。是提到的一点也是因为它用到了上千台机器,如果说都通过人工的方式来去操作,然后会出现比如说成本比较高,并且效率太低,也可能会产生一些人为失误等等。所以说使用了运维编排之后他们可以通过标签的方式来去。更快速地筛选实例做相应的 API 的运维操作,也减少了人工操作的一些风险。

(2)OOS 常见的问题

然后接下来讲一下个 OOS 的一个常见的问题。这里面其实是我们常见的,以平时的日常遇到些问题来做一个总结,有一些问题他会需要做一些批量更新,做一些驱动的这种关系,动作其实已经集成在 OOS 里面了。你可以把它想象成磁盘或者说网络的一些驱动。

①磁盘

它的驱动的更新集成到了 OOS 里面,这样因为之前出过的一些已知问题导致可能会出现一些数据访问不通的情况或者数据甚至数据丢失的风险。阿里云的个官网也会推送,怎么去建议客户去更新驱动,当有大量的 windows 实例的时候,其实是可以通过 OOS 去做的。是客户遇到的一个真实的一个问题,必须帮他解决,说当面对大量的驱动的批量更新的时候,怎么去给他做一些解决。

②parameter 错误

parameter 为什么没有生效,原因比如说跑了之后,他报错什么的,正常的在公模板当中,其实大家是可以看到的,说我这里面会指定一个  region id 。比如就拿更新镜像举例。在这里 parameter ,我其实会指定一个 region id ,然后很多情况下客户他region id指的是说的 region id ,它是一个是一个单独的概念,你不能尽量事基本上可以实现,但是不建议这么做,尽量是要保证每个 region 他有自己的一个 API 的,比如想要去控制北京区的 eCS 做一些操作,尽量在底下 task ,也写北京区的一些 eCS 。然后 region id 有的客户可能会设错,image.png

它可能把想要执行的是北京区的,然后地方可能写成杭州,或者通过默认的方式去选,就会导致说它报错说。实例或者说任务创建失败。然后这是其中一种情况,第二个说遇到的 top 的一些问题是对于 OOS 的 service ,service 中没有配置。相应的一些权限或者是。或者是权限配置的不对。是有这样的一些情况,一般都会有报错,比如说禁止等。比如要去配 OOS 的一个权限我应该会怎么配,这里面有一些授权的一些方式。比如首先我要创一个 ram 创建完成之后要授权,授权可以指定哪些权限呢,比如要往大了只我可以指 ecs 可以指 hd r 些弹性网卡等等,如果需要小一点,可能会更细分的一些去做一些拆解。然后是 forbidden 经常会报错的一个问题,在常见问题当中也会看到,比如什么 user。Doesn't have their permission to do the action. 地方其实说权限不够。有一些权限的问题,对 ramrole 的权限是要有一个大部分其实都是关于可以看一下。

③用户自身的配置问题

无论是 region idea 或者 OOS 的。 service role没配对,也比较居多,都是更多的是用户它可能对于配置不太熟悉的问题。这边其实也记录了一些我在值班或者是在收到客户问题的时候会经常碰到的情况,举几个例子。image.png

比如要去配置一些任务执行失败什么什么之类的,其实有很多人做比如说 region id ,然后有一些同学他的 sumrole 。 region id 跟下面的 region id 是不同的。然后其次。他会报一些执行报错不知道问题是啥。在控制台没有看到具体的一些报错。批量的运维的操作其实都是需要云助手,云助手看他有没有安装,其实是会占一部分比例的问题的原因。是因为很多客户他是从字印象传下来的或者云下传来的,它可能没有云助手。导致说我执行脚本执行不了。云助手的一个排查,云助手它会起一个服务,可以去 windows 上看看有没有服务,对应的它也有相应的一个日志,这是一个 windows 的一个例子。相应的一个云助手,可能会跑东西,不是云助手,但是在 windows 当中可能会有这样的一些例子,image.png

比如真的去跑云助手他会去打出来的,比如去跑什么样的一个认知,然后跑什么样的输出等等,举这样一个例子。具体的云助手的一些问题,比如排查日在哪就可以去看一下,其次讲到了,说用户侧的一些问题之外。可能会有一些客户的需求,比如客户想做到一些站点监控,然后来去触达,比如有些问题然后能不能实现自动搅至自动化脚本,需要看具体产品是否能够实现的。到时候如果真的遇到问题,可以具体每个 case 单独去聊,然后基本上都是一些用户侧,总结下来的一些全新的一些问题。

④重复的任务

报错的比较多,重复的任务是什么?一般来讲他其实已经在执行了,但是因为没有执行完,比如其实是要去。去内部去执行一些操作的,比如一些脚本脚本的跑。需要等它执行完或者是其实也在跑了类似的一些脚本或者类似的一些任务导致任务它会报一些 fail 或者 conflict 。这些其实也是有可能的,比例子有一些客户他说自己的个升级带宽任务没有完成。然后看到底是一个什么原因,其实检查下来它的任务是有一些冲突的。他之前杭州可能任务他是跑在其他地方,杭州其实他也在执行一个相应的升级带宽的任务。然后这方面可能需要看一下,如果在执行多定式运维的一些操作的时候,到底优先级好或者它的实例失败的原因,是不是因为之前已经做过相应操作它的一个优先级就可以看一下,更多的可能是在用户侧。还有一些常见的操作比如失败的原因,其实在官网上他报了一些这种 Status of shanghai d。It's  incorrectsupport 标准,操作一般是因为一些当时正在打快照。也遇到过很多次,比如他其它的一些定时任务,比如不一定是由个 OOS 去执行出来的。可能是一些拍照的策略导致我这边其实正在打快照的一个数据盘,是没办法做一些镜像这些操作,因为这都是单原子化的一个操作。这块儿其实也可以注意一下。

然后基本上常见的问题就这些,如果还是遇到一些字,无论是咨询上的还是说任务执行失败,不知道问题在哪大家可以去拿相应的 ID 执行 id 一般来说是有一些执行日志行结果,他的一个报错会比较明确,如果实在不明确可以拿 As  community 来找我们,然后我们可以通过 Id 来去做一些排查,然后接下来就讲一讲整体的运维编排对待 devops 的一个帮助,因为 OOS 绝对不是一个什么产品都可以,或者说整体的 devops 当中他一个产品就直接扣掉。云上的一个 devops 需要多产品,然后多个技术来去完成了,而且甚至有时候并不一定完全管理员来去做。image.png

比如说在环境下。运维编排其实是其中的一部分,从我最开始的 cloud build ,包括用一些 id 的一些操作。 Web id 包括是函数计算的一些功能,来去把代码真正能够build了起来,然后到真正的 cacd 发布通过有效的产品,产品能够去做一些相应的发布,包括测试。然后真正到些资源的一些步数,资源的部署涉及到什么地方?

当代码信号之后,需要有他的一个运维环境,资源编排也是,想想可能时间不太允许的情况,说 ros 的功能其实也是在整体的云上运维当中非常重要的,可以通过。做一些 temple it 做一些 Jason 或者 YAML 的编写来直接部署一整套的一个环境,包括  ecs,Rds, v PC 都可以直接搭建出来。这套东西其实是针对于云上大会,是非常重要的一排,有了这样的基础代码所运行的环境之后,然后去云霄发布在环境上才能够去做相应的一个部署完成,部署完成之后,接下来对于云上资源操作是区别好像去做的包括内部的操作等等,在地方就转从部署。到转运维运维之后,会到云监控会去监控,无论是通过云技术资源监控还是通过 arms 。来进行一些 API 层面的。或者是应用层面的一些监控,都是可以通过监控的一个能力来做到的,然后与此同时能够形成一个闭环的管理,从监控再去做相应的一些后续的一些部署,包括一些云上运维的基本操作。然后接下来就谈一下弹性计算这边的一些自动化运维的一些动作,涉及到一些产品。可以帮助更好的去了解到会有这些产品,产品能够帮助我们的客户或者运维做这些东西,第一个 SMC 。image.png

让客户从服务器从 idc 环境下能够一键迁移,比如说通过变 where通过一些 https 能够一键迁移到阿里云上。然后其次部署之后,镜像拿到之后,可以去做相应的运维,编排资源编排的能力,来将他快速部署到想要的一些功能区。接下来涉及到的一些运维,包括,有的一些目前以前是有一些诊断能力,包括云监控等等,然后也可以通过的 OOS 去做一些实例自动化的一些部署。然后最后可以通过一些弹

性的一些能力,包括 ess ,包括 apg 这些方式来帮客户按需的去进行扩容。关于 ros 的这一块。先从案例讲起。就可以通过这一套的资源编排的方案来去批量地部署一些工作力量部署一些环境,比如资源站的一个管理,可以去创建相应的资站,然后资源站会有定义的一些语法。类似于这样的一些语法,然后通过这些语法能够去把资源进行相应部署,然后同时它可以调用 terraform 来去做相应的操作,比如这边我们看一个具体的一些模版。比如举资源类型里面可以选他 cover 的范围是广,它不光是对个 ecs 和更多,可能会对到集团包括云上的各种各样的一些人物,比如对于 disk我可以去执行相应的一些指令,去创建有相应的一些参数去指定,比如说 cat gree 是 essd 。还是高校云盘等等这些都是你想好之后可以通过API直接去创建出来一整套的一个东西对应的,其实是同样的一个道理,他们会有相应的一些语法脚本比如说对于某个 service provider 。可以去创建像些参数随便举个例子。它通过指定一些Schema制定一些对应的一些 parameter ,其实做法都大同小异,无非它的操作也是去创业实例,然后包括我去指定对应的 image 的版本,然后对应的一些网络的参数等等。然后将实例创建出来。基本上做以类似的方式去做,包括 ros 也是有相应的一些模板,可以直接使用的。比如在地方我是有一些模板的实例可以使用的,比如创建 kubermetes ,可以看到他们也是通过 JSON ,YAML 来去做,然后就建议在做 ecs 创建的时候,尽量可以通过一些 api 的方式或者用一些这种脚本的方式能够创建,这样方便更好的了解 ecs 的各个属性,然后通过这些属性你能更好的去了解到,需要关注,或者在 ecs 上有哪些属性武器可以玩,然后哪些属性是可以通过。自定义或者 api 的方式去弄的。有些方式可能在控台上他是没法点一点可能是没有办法去做的,但是通过 api 的方式可能会了解到原来还可以这样选。其实是比较方便去做操作的,包括它还可以通过一些插件去左配一些像些东西。 ros 简单介绍一下。跟 OOS 一样,都是运维当中非常重要的一盘。


五、总结image.png

接下来介绍一下今天主要的一些内容。今天基本上就讲了OOS 的一些基本概念,包括为什么会有 OOS 的一个诞生,对于云上的一个运维或者传统运维再去处理大量的一些 OOS 的统一操作的批量操作的时候效率比较低,然后容易会产生一些人为的一些故障,包括现在出现的告警能否自动化处理。这都是给云上因为产生了一些新的要求。怎么通过一些自动化的方式去把这几个运维。云上运维的操作能够智

能化的处理掉。运维编排操作或者是面向服务探索提供了一个能力,首先它本身是免费的,其次它能够给你在云上的一些运维的动作包括云上的一些资源进行接收成本,并提高运维的效率。

1、OOS 的基本的一些概念

基本概念里面有他所涉及到的一些组成的部分。然后再回顾一下,首先第一步说需要去创建一个模板,模板可以是可视化的,自己去填些内容,或者是自己去用 YAML或者直接去写。接下来可以通过执行的一个步骤。比如说设定了 task ,可以选择 alarm trigger  或者  time trigger 通过时间的方式比如周期性的一个运行还是说我通过收到一些事件告警或者说云监控告警来去触发做的一些操作。然后第三步之后会查看到我的结果,通过结果甚至可以进行下一步的 OOS 另外的运维操作,然后整体来讲它的一个 OOS 的一个模板会分为以下几块。包括 api 的版本我对于本身的描述所使用的一个参数的一个参数,其次以什么样的方式进什么样的一个角色去进行运行。某一个实例被删除,被关机了,是不是 OOS 造成的。其次一些 task ,我的动作定义的一些细节。最后我可能会有一些输出,通过输出来去判断接下来要做的一些操作,或者说接下来执行的 action 。OOS 整体的它的一个里面的组成内容。

2、OOS 所使用的一些具体的模板和案例

案例当中在真实企业当中确实是应用到了,并且提高了他们的效率,节省了成本等等。然后最后介绍了 OOS 在云上的 DEVOPS 上是起到了其中的一部分,但是对于云上的 DEVOPS 仅仅是其中的一环,如果想要真正地把 DEVOPS 做好,还需要结合各种各样的产品,各种各样的一个线下的一些产品,或者线上的一些产品好一起来把整体的 DEVOPS 去跑完,包括现在我们谈到的用一些云笑来去更好地把我的一个云上的 cacd 的过程更好的去做完。最后也拓展了一下跟 RoS 相关的我们的资源编排服务。image.png

3、训练营课程大纲

对于他们有个初步认识的弹性计算有什么认识,然后接下来讲一些ecs基础概念,包括一些涉及到的快照和镜像。然后以及一些相关的一些概念包括怎么使用去对快照,包括镜像的最佳实践,更好的去避免一些运维商出现的问题。然后讲到了对于安全在云上或在 ecs 一些话题,包括谈到了 ssh ,包括谈到了一些云平台,在安全上可以做一些加密,然后 OOS 内部可以做一些加密,包括一些审计包括一些最佳实践,保证说再用过程中不会经常会被黑客攻击或者暴力破解,然后内部数据不会删除不会中病毒等情况,然后接下来第4讲到了云上的运维,主要是一些使用场景,比如常见的一些问题,通过一些报错信息来分析,更好地去分类到底跟什么有关。不论是网络问题还是内部问题都可以通过简单定界去定界到。还有多网卡的使用方式在云上怎么去配置。比如怎么去在 OOS 内部做一些配置。其次云助手,你可以去自定义下载一些东西,而且你需要登录到 ECS 里。可以通过云助手进行排查,比如网络连接不通的时候,可以通过用云助手去打一些指令去测试到底 OOS 本身是否响应。然后包括一些云平台测试的事件。比如主动运维平台告警等。具体的事情是需要积极地响应,还是我需要去咨询确认问题是不是要去对于某些场景下需要注意备份或者风险。包括云监控产品,然后通过架构以及弹性伸缩的一些核心能力,来去结合这两点来更好的去把云上的一些自动运维的一些动作可以更好去完成。

然后最后介绍了 oo s 这个产品尽量的去做一些实例的运维,对于整体的运维发布进行管控。整体 6天所讲到的一个内容,带来的也只是一个初级运维,因为包括去框架性的了解相应的一些事情,真正实际使用当中肯定会遇到各种各样复杂的情况,也会有相应的一些进阶的一些动作,包括一些课程后续也会持续去进行输出。

相关文章
|
弹性计算 负载均衡 测试技术
运维编排系列场景--跨可用区批量克隆ECS实例
背景可用区(Availability Zone,简称 AZ)是指在同一地域内,电力和网络互相独立的物理区域。例如,华北1(青岛)地域支持2个可用区,包括青岛 可用区B和青岛 可用区C。同一可用区内实例之间的网络延时更小,其用户访问速度更快。将应用部署在多个可用区可以提高应用的可用性,降低故障风险。然而,在实际应用中,有时需要将实例从一个可用区迁移到另一个可用区,以实现故障切换、负载均衡、数据备份与
运维编排系列场景--跨可用区批量克隆ECS实例
|
弹性计算 运维 数据中心
运维编排系列场景--跨账号跨地域实例操作系统补丁修复
运维编排(OOS) 简介什么是OOSOperation Orchestration Service,简称OOS,是全面、免费的云上自动化运维平台,提供运维任务的管理和执行。典型使用场景包括:事件驱动运维,批量操作运维,定时运维任务,跨地域运维等,OOS为重要运维场景提供审批,通知等功能。OOS帮您实现标准化运维任务,从而实践运维即代码(Operations as Code)的先进理念。关于OOS更
|
弹性计算 运维 监控
运维编排系列场景--通过告警触发自动重启CPU使用率高的ECS实例
运维编排(OOS) 简介什么是OOSOperation Orchestration Service,简称OOS,是全面、免费的云上自动化运维平台,提供运维任务的管理和执行。典型使用场景包括:事件驱动运维,批量操作运维,定时运维任务,跨地域运维等,OOS为重要运维场景提供审批,通知等功能。OOS帮您实现标准化运维任务,从而实践运维即代码(Operations as Code)的先进理念。关于OOS更
|
弹性计算 运维 监控
运维编排系列场景--使用定时运维进行状态逼近
### 面向终态的运维 阿里云运维编排服务(Operation Orchestration Service,简称OOS),是阿里云提供的云上自动化运维服务,能够自动化管理和执行任务。OOS支持定时运维功能,可以周期性重复执行指定的运维任务。基于定时运维,OOS能够对云资源的状态进行管理,实现面向终态的运维。 本文以[ilogtail](https://help.aliyun.com/d
运维编排系列场景--使用定时运维进行状态逼近
|
弹性计算 运维 网络安全
运维编排系列场景--批量管理自定义的软件包
运维编排(OOS) 简介 什么是OOS Operation Orchestration Service,简称OOS,是全面、免费的云上自动化运维平台,提供运维任务的管理和执行。典型使用场景包括:事件驱动运维,批量操作运维,定时运维任务,跨地域运维等,OOS为重要运维场景提供审批,通知等功能。OOS帮您实现标准化运维任务,从而实践运维即代码(Operations as Code)的先进理念。关于
运维编排系列场景--批量管理自定义的软件包
|
弹性计算 运维 监控
运维编排系列场景-----在磁盘使用率超限时自动清理临时文件
### 场景介绍 有些应用在运行过程中会不断产生文件,比如下载的文件、备份文件、日志文件,我们需要在磁盘使用率过高后删除不再使用的或者过期的文件。这里我们以清理/tmp下的临时文件为例,说明如何通过运维编排(OOS)提供的公共模板来实现此类运维操作。 ### 解决方案 我们准备一台ECS实例,登陆进系统后,查看它的磁盘占用率: ![磁盘占用2.png](https:
【技术战疫】运维编排灵活审批场景解决方案
运维编排(OOS) 简介 什么是OOS Operation Orchestration Service,简称OOS,是全面、免费的云上自动化运维平台,提供运维任务的管理和执行。典型使用场景包括:事件驱动运维,批量操作运维,定时运维任务,跨地域运维等,OOS为重要运维场景提供审批,通知等功能。OOS帮您实现标准化运维任务,从而实践运维即代码(Operations as Code)的先进理念。关于
|
弹性计算 JSON 运维
运维编排场景系列-----自动一键连通跳板机
跳板机是云盾提供的一个核心系统运维和安全审计管控平台。通过跳板机可以操作跳板机内连通的实例,并在跳板机内对实例进行免密连接操作。此文章构建的是一个简易的跳板机例文。 前提条件 实例状态为运行中(Running) 在控制台查看准备的秘钥对或创建秘钥对 保存秘钥对中的私钥部分 模版说明: 父.
运维编排场景系列-----自动一键连通跳板机
|
弹性计算 运维 Perl
运维编排场景系列-----批量更新云助手客户端
应用场景 当云助手客户端未自动更新时,需要人为的手动触发去更新云助手客户端。已知需要更新的实例标签,或已知具体实例,执行模版来自动更新目标实例的客户端。 解决方案 模版功能:1、查找指定的Tags实例,或者指定目标实例。
运维编排场景系列-----批量更新云助手客户端