开发者学堂课程【企业运维之弹性计算原理与实践:【视频】-《ECS 进阶概念-运维》】学习笔记(二),与课程紧密连接,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1039/detail/15305
【视频】- 《ESC 进阶概念-运维》
内容介绍:
一、课程简介
二、ECS 远程方式
三、ESC 元数据&自定义数据
四、ECS 云助手
五、云助手功能演示
六、实例演示(一)
七、Sysak 工具
八、实例演示(二)
九、ECS 系统事件-概述
十、ESC 系统事件-事件状态
十一、ECS 系统事件-应用场景
十二、ECS 系统事件-事件处理
十三、ECS 进阶概念2
十四、实验-远程连接排查(方式一)
十五、远程连接排查(方式二)
十六、远程连接排查(方式三)
十七、CPU 指标
十八、排查案例
十九、案例排查演示
二十、小结
本课程主要包括了解云上系统事件,问题排查,ecs运维以及演示四个部分。
五、云助手功能演示
可以看一下,云上其实还有很多,就比如那种open pi的接口。
1.创建
然后地方比如要去下发一个命令,在下图可以创建,然后批量执行。
2.选实例
这里可以选两个实例,可以根据状态可以去选择,此时客户端状态正常的,命令是怎么去执行的?上面介绍的机器内部,有一个客户端,命令是发给客户端去执行,然后把结果返回过来。
3.批量执行
下图,下发了这样一个任务,因为命令是非常简单,获取一下主机名,所以,执行速度很快的,直接就出来了。
这样就可以批量得到之前的一些结果,是云助手的功能上面演示。
4.配置定时、周期
然后上面提到的,比如一些定时,定时任务都可以在左侧配置,下图这些地方可以配置。
而周期的一些配置都是可以的,云助手的一个大概过程样子,整体使用,也基本上看了一下,使用非常简单,然后可以下载去看一下,下面有一个实验,演示一下。
六、实例演示(一)
现在就可以演示一下实验。把屏幕切过来,云助手,这边有一个实验,现在先演示一下,然后可以下来自己去做一下实验。
1.地址
https://developer.aliyun,com/adc/senario/c64573706e6d4be38e9254cae0c68db5实验地址。
2.创建资源明
然后。看一下云助手的实验。进来之后可以先看一下左侧这些创建资源的这些明,实验手册应该也是非常简单的,大概的一个基本使用。
然后可以先创建资源。地方沙箱环境,它会直接去执行。执行一个创建实例的一个动作。
完成之后,可以拿到一些测试资源,测试资源拿到之后就可以相当于来实验环境里面去执行去一下。
先等一下它,可能要创建需要一会时间,而且过程相当于在是地方集成了一个eps的一个Api,通过API去创建调用到ECS就创建资源的过程中,那可能会涉及到的上一章介绍到的比如linux的一些生命周期,它先变成opinion态然后变成starting,那starting完变成running时态它一个稳态了。前面那些starting, opinion都是些中间态!当它到稳态的时候,实例可能已经运行了。
3.误区
实例运行之后,其实当时过程可能有些误区,运行了之后它是不是就可以远程连接了?肯定是否定,运行只是虚拟机已经拉起来了,但是接下来要启动硬盘里面的系统,Linux会快一点,Linux因为它不需要像WINDOWS那样做一下重新部署。所以可能看到Linux一分钟两分钟它就有它就搞定,WINDOWS可能要等个三分钟,五分钟它可能完成,大概是这样一个过程。
4.实验手册
资源也已经创建好了,可以上去看一下实验手册,下一步它这会有对应的一些下一步要做什么。每一步做什么。
5.登录控制台
打开浏览器这里面是一个esr环节。它可以联系这里会提供子账号的信息,这些信息那其实它也是临时。不过觉得它真的好。在资源释放之后,这些资源就已经就可以释放掉了。
而且下图一个ecs的一个控制台,跟正常用ecs学习是一样的,只是账号是临时的而已。
使用手册中显示怎么登,登录完之后,找到哪个页面,它会告诉要找到云助手的页面,注意到上面演示过,是在这地方可以有快捷方式,下图可以把地址复制进去,其实熟悉之后其实都是一样跳过去。
6.创建资源
跳过去之后,其实到了上面演示的界面,比如这里有个云助手。不过测试资源都已经出来。Ecs助手,它会告诉要切到哪个地域,因为ecs是之前分享到就有很多region,分布在不同的regen会有很多的可用区,那么大家根据自己业务需要,可以在不同的业务区区去买这些资源,它让迁到华东二的。
那看一下切到华东二,然后给它创建命令,其实可以看一下资源是起来的,资源在这放着,这是实验的一个资源。
7.创建命令
然后它就告诉怎么去创建一个命令。它这去创建命令,然后执行内容,内容它直接告诉在参数填什么,它都告诉了,相对于脚本肯定是放到进项里面去了,所以所有的根据它的信息来就可以。命令内容是什么?左面都是有的,可以点一下复制按钮。可以复制一下把内容粘进去。
然后相当于放了一个脚本进去,然后就看到了什么就可以拿到一些基本信息,系统版本,发布的信息,主要是获取一个系统的信息。
8.选择实例
下一步做什么,左侧地方也会写,可以选择实例命令,大家可以自定义的去写。在熟悉的情况下可以写一下。然后可以选择选择实例,因为测试实验环境只有这一个命令,只有这一个技巧。这也会告诉大家实例怎么填?大家可以看一下,都是一步一步来的。
然后选择实例。
9.执行
然后到下一步,然后开始执行。这些可以同样点进去看一下它。现在它也是执行完了,它获取一些系统的版本信,发布信息,然后看到结果之后,其实相当任务就执行成功了。
10.jenkins
下面还有一个,在实例上安装jenkins,它是一个社区提供的一个开源的工具,一个cse的一个工具,只是东西怎么去用?比如刚才提到的部署服务,jenkins在公共命令里面显示是提供了的一个东西。公共命令可以直接搜一下命令名称。
其实这边也可以介绍一介绍像sex ,sex是什么?内核团队这边在做的一些工具,可以从内核层面去抓一些系统调用,在手机上的时候看一下比如IO等,或者内存泄漏了,在jenkins可在内核层面去抓一些信息的调用,然后发现系统调用它可能出现什么问题,是不是会有程序要升起来还是要释放之类的,这是一个题外的东西,可以下载去了解,在网上应该也可以搜的。
11.执行实例
然后jenkins找到,可以点进去执行。相当于命令是内置好的一个命令,打脚本,内容也可以在这可以看,大家可以去看看,其实它就和平时运维写的脚本是一样的,只是把它放到地方去执行。
而同样的下一步的地方应该也是会选择实例,以及执行。那下面看一下,直接执行。它就会去控制台执行这些地方,因为它要部署工具,它肯定要去网上下载一些安装包之类的,肯定可能会耗时久一点,就不像刚才那种只采集一个命令就完成。可以看到还在进行什么命令。
执行它也会时时打出来,当前正在执行什么就会打出来,然后下面地方执行过程。
12.注意自动交互
相在脚本里面,通常在执行脚本的时候可能会有些交互,什么交互动作?就比如要安装一个东西,那么它可能会提示,是否要加载,是否要进行下一步?这类的可能要去打一下yes或者no那么在这种情况下,是没办法去和它交互的,那可能在写命令的时候需要注意一些东西,就比如命令可以把/y写上,让它自动下一步,让它自动打yes。那这种东西完成动作,相当于就避免和出现这种交互的动作,因为交互就会卡在那里,就会等在那里,然后命令会设一个默认超时时间,等到超时到了之后,它就超时了,所以它就相当于命令就会失败了。所写在写这种脚本的时候就要注意,把这些东西写上去。一定是让它在没有人工交互的情况下,能够自动去跑完东西。
可能还要跑几分钟,看一下下面装好就它其实就会给一些服务地址。可以再等一下。
七、Sysak 工具
1.功能明
现在的其实可以看一看,Sysak提到的一些工具,可以做一个了解。使用jenkins的时候了解到这些东西比较多一点,这些比如现在anolis叫龙西社区,是龙西社区。然后会在这里面,它有一个龙西社区的一个操作系统,然后也提供了一些龙西系统的一些工具诊断,工具当然它不仅限于龙西,在阿里云的sysak,source红帽时候,这上面大家都是可以自己编译的,然后去实现一些功能诊断的。
2.io 诊断
然后就Io的诊断之类的,会有些文档告诉显示要统计一些block层面的一些io统计,或者是统计每个磁盘的IO情况,都可以打出来,每个进程写了多少数据,数度是多少,或者fs的layer文件系统层的一些打印,每个盘它的热点的一些文件打印,这些都是可以统计的,这些都是从内核层面可抓出来的。
3.其他功能
所以,就相当于给大家一些更深入一些东西,不仅限于通过常规的一些系统命令去抓取,常规这系统命令它可能很多是在抓一些用户态的数据,或者它可能会执行的抓的数据比较有限,所以也提供了这些,功能不仅限IO,这提供了很多常规的功能内存的功能,网络的功能,还有调度的功能,都是有提供的。最常见的调度,这些都是信息关注度,但是这些的太深了,大家可以自己去了解一下就行了。
八、实例演示(二)
1. upgrade 执行
然后结果可能可能有点慢,因为它可能装很多软件。因为它的装的时候,直接执行了一些upgrade。它可以直接把系统需要升级的软件都会升级一遍,当然如果在生产环境当中,尽量不要去,非必须就不要去upgrade,它在执行时不会管业务是什么样子的,它只需要知道包需要升级,去服务端下载,去安装,可能把内核的升级了,可能把jenkins也升级了,升级这些关键的系统组件,那么升级完之后会带来什么效果?很多程序就在写的时候可能没有感知,但是它底层会掉很多东西,一旦这些包被莫名其妙的升级了,可能依赖变了,程序可能会跑不起来。甚至更严重的,系统起不来。因为它把系统也拿来update,可能会出现整个一个崩溃。
这些东西在这生产环境当中的时候一定不要去盲目自信,一定是要在测试环境把它验证通过了!然后才能上到生产环境跑这样一些任务。
2、jokins
看起来这已经在下载 jokins 了。在 jokins 后面应该是会比较快一点,可以先等它再下载一会。
3. 运维思路
大概运维的一些思路,其实在运维的过程当中,业务发布肯定也是要先上测试环境的,可能也要了解东西先上测试环境,然后测试环境完成压测,压测完成之后可能要上到生产环境去做一个发布,那么即使是在中途在业务运行过程当中去做一些更新的时候,可能也是需要借助于一些管理的平台。
就比如现在比较火的是云原生,可能会可以直接执行一些灰度发布,或者拦域发布,那么它可以在一个业务感知最小的一个情况下,用户感知最小情况下把业务程序发布上去。
4.访问 ip
然后下图地方应该是已经部署好了,地方它会告诉的它把IP显示,访问哪个地址?可以直接去访问试一下。
它是访问的8080 doc。其实jenkins它就相当于已经安装完成。
5.初始化配置
完成之后,其实地方剩下的要去做初始化的一个配置,就相当于是做一个jenkins的配置。看实验的手册,后面看看没有?它刚才安装完成页面,然后做完之后其实这里就已经完成了,
(1)、登录jenkins
然后就可以下一步的命令,下一步是要创建命令面板中依次命令来源,是可以按照它步骤来,把后面的步骤给跑完。下面有下面一个是在创建命令,应该是要去看jenkins配置。再看一个初始化的密码,执行一下。
像这种命令应该就会非常快,一瞬间的事情运行完成。它是密码,应该是首次随机生成,把密码复制上来可以继续。其实就已经等到了jenkins的内部了,是刚才做的,可以去登到应该是这界面,这可能有点慢。
然后地方其实它就已经相当于jenkins整个就已经自动化的部署好了,而且在过程当中,完全整个界面开出来到把服务搭建好,连服务器都没登过,相当于ssh都不用上去,直接控制台上就可以把功能自动化完成掉。
(2)、新手入门
而剩下的可能就更关注业务的一些东西了,就比如关注jenkins怎么使用?不关心怎么装的?只需要知道现在装好了,怎么去用它就可以了。就相当于云助手提供的一些内容自动化的一些功能。做到这里相当于选项内就基本上就已经完成了。
可以下来自己去体验一下,这样一些东西,然后其实大家可能玩的比较久的情况下,可能会知道,命令行直接远程上去操作和这种操作,它的一个区别,比如到机器上可能拿到是一个黑屏,要去敲很多命令,配很多环境。那么可能样做之后,第一个是自动化完成,第二个可以一次性装十台装100台机器都可以。不用每台要单独去装,是一个自动化功能现在就先不管了,因为实验已经完成。
先结束掉,把执行结束之后,它的一些资源都会释放掉。
云助手的一个使用,刚才包括刚才实验,让大家可以自己去操作实验就可以。