【视频】-《ECS 进阶概念-运维》 | 学习笔记(三)

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 快速学习【视频】-《ECS 进阶概念-运维》

开发者学堂课程【企业运维之弹性计算原理与实践【视频】-《ECS 进阶概念-运维》学习笔记(三),与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/1039/detail/15305


【视频】- 《ESC 进阶概念-运维》

 

内容介绍:

一、课程简介

二、ECS 远程方式

三、ESC 元数据&自定义数据

四、ECS 云助手

五、云助手功能演示

六、实例演示(一)

七、Sysak 工具

八、实例演示(二)

九、ECS 系统事件-概述

十、ESC 系统事件-事件状态

十一、ECS 系统事件-应用场景

十二、ECS 系统事件-事件处理

十三、ECS 进阶概念2

十四、实验-远程连接排查(方式一)

十五、远程连接排查(方式二)

十六、远程连接排查(方式三)

十七、CPU 指标

十八、排查案例

十九、案例排查演示

二十、小结

本课程主要包括了解云上系统事件,问题排查,ecs 运维以及演示四个部分。

九、ECS 系统事件-概述

然后接下来,就主要介绍一下ECS系统的事件。

1.计划内事件

先介绍事件是什么?ECS的系统的事件是什么?一开始在云上的时候,可能会遇到各种各样的问题,很多样的问题,要去告诉客户机器可能现在出现什么问题了,可能需要用户侧做什么动作去规避它,因为它可能出现什么问题,它有风险。现在云上是通过什么东西去通知到客户侧?就比如传统的机房可能会自己部署一些监控,监控硬件的信息,去监控一些其它的一些资源信息比如cpu或者系统状态,可能去监控,那么出现异常可能通过传统的比如发邮件,电话,告知到客户,客户告诉知道管理员了,那么去让管理员去做运维动作。

2. 计划内事件事例

在云上怎么去做?云上就算提供了这样一个事件的一个平台。ecs出现的一些非预期的行为,或者需要客户侧去响应那些行为的时候。就会推荐一些事件。

主要的事件有哪些?就比如计划内的,因为底层上也它也会去做很多算法的预测,出现这种软硬件风险,是指可能会针对系统的底层的一些信息,日志去做一些采集收集,收集完成之后做一些聚合的分析,那么实例出现了什么样的日志,什么样的情况下的时候预测它要出问题了,产生了这些之后,预测它要宕机或者要其他,然后可能就会提前告知,把事件推出来,推到用户,告诉他东西要宕机了。

当然大家顺便给大家介绍一下,可能也有些误区,云上的实例怎么会宕机?可能有些人也会有这样的一些误区,云上ecs它本身是虚拟机,虚拟机它是需要在一个计算节点上的,计算机点的它就相当于一台物理机,物理机上如果出现了硬件异常,因为硬件它本身是一个耗材,那么在用的过程当中它可能会出现一些损坏,或者非预期的行为,它可能一下就挂掉了,可能自己在用笔记本电脑可能也会想到,尔偶一下直接就黑屏了,不知道怎么回事,就黑了,这是硬件的一些非预期的一些故障。

3.迁移

因为它运行在一个计算节点上,那么如果计算机的出现硬件风险,硬件故障,那么肯定它是要宕机的,当时云上也提供了很多的一些机制,来保障ecs的一个可用性,包括即使它出现的非预期的这种宕机行为,那么底层也会直接在很快速的情况下,执行一个宕机迁移。它在物理机上宕掉,那么问题就可能坏掉了,那底层会直接再把它拉到另一个物理机上快速启动起来,帮助快速恢复e cs的一个实例,这是一个宕机迁移。

以后也会遇到这样的事情,如果遇到风险,回到地方告诉大家,告诉用户地方可能有风险了,要做什么动作,要去响应事件,比如可能要宕机了,那么可能需要客户做的安排一个时间,重启一下机器,因为已经发现异常之后就会给它打标,告诉客户在重启机械的时候,机器关掉然后再启动的过程中直接会把它拉到新的物理机上,相当于底层做一个迁移,相当于是这一块的东西。

4. 非预期事件

然后还有非预期非预期的行为,其实刚刚介绍的一些,就比如硬件宕机这是一种,还有一种是什么oom很多,还有内核kernel panic。

(1)、oom

是什么oom是什么?内存不足的时候,可能应用程序去申请的时候它可能出现oom,oom为什么要给客户推事件?比如很多场景,有的用户它可能会配置一些东西,就比如oom的时候,让内核自动panic。

内核kernel panic是什么一个概念?它可能就相当于是触发它一个崩溃,让它自动完成一个重启,是一个主机类的一个配置。那么可能它会自动推荐的东西,所以检测到之后会把事情推出来,一方面是告诉客户发生的是发生了什么问题,另一方面也提前发出来之后,让客户可以感知到业务出现什么问题,然后客户去做一些动作。

内核 panic上面提到一点,它是在内核崩溃的情况下自动去重启ecs,然后把事件拉前,但东西不仅限于oom场景,还有些什么场景,比如内核里面访问到一个空指针,或者其他东西,可能是内核bug或者怎么样触发的一些东西,那么在这种情况下,它也会触发到内核的一个崩溃,崩溃之后,可能就会自动完成一个重启。

当然在使用ecs的问题排查当中,其实会遇到很多,就比如这种崩溃的情况下,那么崩溃之后一般怎么去做?遇到这种内核崩溃的情况就可能会,如果用的是阿里云linux,阿里开发的那套系统,那如果那套系统,那它会自动默认的做一个叫k down服务,它在panic的时候需要做什么动作?事后要怎么分析,因为常规的日子其实它记录都是非常有限的,像message日志,这些都是非常有限的,那么要怎么分析?在异常的时候触发的时候,要去把当时的内存。当时的内存里面的内核态的一些内存把它给down up到磁盘里面去,因为内存它是一个重启就会丢失的一个东西,出现panic的时候,它的一些关键信息肯定都是在内存里面的,然后它不会在磁盘,所以一旦重启完成了之后,现场基本上是没有什么办法分析的。所以,一般是有了k down服务,那它可以在panic的时候把科诺里面的关键内存down到磁盘里面,然后可以拿到这种内存之后,就可以把它解析出来,然后做一些这种分析的动作。看一下它是比如内核bug还是其他导致的,是一种,这种会给客户推一些事件。

5. 升级改造

然后还有一种,比如这种升级改造,升级改造的时候,很多情况下,就比如十年前买的机器,它的架构很老了,底层现在已经更新了很多,那可能现在需要把这部分也迁到新的架构上,那么,可以保证它实现,让它拥有更高的一些稳定性,不管是基于稳定性还是功能,这些方面都可以给它提供更好的一些保障,为什么要推架构迁移。

当然东西可能也是涉及到很多,可能目前也是持续在做的一件事情,因为很多老的架构上面,比如以前的架构,可能有一六年的架构,那些架构当时都很老,很多客户它的业务,应该是不能重启的所以大部分时间是在运行状态,可能都没有去重启过,所以没有做这样一个升级,在这种情况下,一旦推送的事件,建议用户尽快安排一个业务的一个窗口期,然后去完成这样一个,动作其实是不需要不需要用户去做一些数据迁移,需要明确一下,它只是需要响应一下事件,响应完成之后,底层它自动会去做,把底层的一些数据,磁盘的数据和计算节点迁移到的新的物理机的架构上面去。它这样一个事情。

6.安全事件

后是一个安全的事件,安全在下一章节会再介绍主题,一些安全的东西,然后这提到的比如像这种ddos攻击或进入黑洞,实际上要给推送一个事件告诉它。Ddos是什么?可以顺便提一下,ddos其实一个四层的一个流量攻击,网络里面它可以分为t层,四层,四层ip的在tcp层面去做一些攻击作用,比如可以用很多叫肉机,很多可能攻击者,让它去控制很多僵尸机械也好或者肉机也好,控制很多机器人来对的,对于的ecs发起一个流量攻击,不仅发包,不停的发包,它也不管有没有端口,它也不管一直就发包,发包的作用它会导致什么?包过来之后肯定要经过网络的一些入口,然后到主机,过程肯定是有的,那么它的一个目的很目的很显然,大量发包,然后它可以把整个公网出口全部堵死,让正常的流量都没办法进来,DDOS不停的发大量的报文过来让的公网一直处于爆满的状态,其实当云上提供了一些基础的防护,但是超过基础防护之后,其实也会把它进入一个黑洞,因为工厂出口,其实资源也是非常有限的,不会让它一直去打的,就如果它已经打来十个g流量过来,那超过了基础的一个防护之后,直接就会把ip加入黑洞,流量全部引导黑洞里去,然后它就进不去了,时候其实ecs也是处于一个公网访问不到的情况下,内网是可以的。一个题外扩展的一个东西,安全的一些事件。

然后其实这还有些东西没有写到的就比如是,cpu,实例cpu一直处于打满的状态下,打满的情况下它也会告诉现在有很多实例处于一个cpu爆满的状态下,要关注一下的业务正常,实例是不是需要扩容了,这些都是需要去关注的。

7. 费用预警

剩下基本的东西就比如费用预警,到期,欠费,这些东西或者要停止释放,都是会推这些事件的,事件基本弄动作。

8.实例状态变化

然后实例状态变化,因为也是有很多客户会关心的,就比如实例关机了,需要知道实例现在被关了,那么其实这些都是ecs的一些系统实践,都会推出来,推出之后甚至可以结合云监控,云监控在的后面的章节也会介绍到,云监控可以结合试验监控推送的事件,然后通过云监控给发一个告警,告警可以自己配置,可以是电话可以是邮件的,甚至可以是钉钉推送。大概是这样一些渠道,可以把这些状态及时的通告出来了,告诉管理员是当前是有异常的。需要去做一些动作。然后是大概介绍一下系统事件。image.png


十、ESC 系统事件-事件状态

1.状态概念

系统之间的一些分类,那些场景下可能会推进事件,现在是什么状态?给用户推了事件之后,事件肯定是需要第一种作用告知客户,第二个可能需要客户响应一个事情,需要客户配合去响应的事情,就比如最常见的云上可能有一些刚才提到的架构迁移或者非预期内的需要迁移的动作也好,是需要客户点一下,去响应它操作的,在情况下把这些事件,分了很多状态。

2.状态分类

(1)、这种就比如executed,是已经执行完成的状态。

(2)、avoided相当于是已经规避了,已经规避掉的原因是有可能用户已经响应了事例,然后事件就规避掉了,这种状态其实是可以不用管。

(3)、那么这种failed这种失败的状态,可能是需要客户去重点去关注的东西,一般如果看到failed,执行失败了,那可能就有很多,可以直接给阿里云反馈,有很多渠道,比如有一些可能有企业钉钉群之类的,有一些可能是直接在官网上,开一些工单之类的,找到售后的一些同学。可以看一下这些failed是什么原因。

(4)、canceled取消那就很简单,可能是底层通过什么方式规避掉了问题,可能事件就不需要用户再响应。那它就会取消掉。

(5)、当然还有些像这种inquiring等待响应的一个状态,这等待响应最通常出现在什么情况下?通常出现在ecs有一个本地盘的规格,介绍到云盘,有一些本盘的实例,本地盘因为它是一个单节点的环境,就算一旦环境出现什么异常,它可能就坏掉了,那么可能要去迁移,迁移的过程当中,因为本地盘的可能迁移的时候它换了一个新盘,那么原来的盘可能数据都已经丢失了,那么就时候可能需要用户响应一下,现在要迁移了,授权之后完全迁移。

当然,个人强调还是本地盘,通常建议不要放一些重要数据,一般可以把它作为一个相对类似于大数据的一个计算节点之类的。挂一台没有对整个集群数据是没有影响的那种,一般是放这种业务。

(6)、然后比如下面有scheduled定时,定时操作,就比如刚才提到的需要用户响应去操作,操作一个重启,那么重启的时候,它会有一个立即重启和一个预约重启。

因为通知下来之后,可能当前客户业务是没有窗口期的,可能需要凌晨一点两点去执行,那这可以设一个定时任务预约执行,预约在凌晨某个时间去执行,那么其实是不需要人为再去守着,不可能守到半夜两点再去重启一下机器,没必要,设置定时任务就可以了。

(7)、executing,状态就大家也能理解,执行中,执行中也很简单

3.图示

(1)、授权中

然后大家也可以看一下上图左边,针对待响应的事件情况下的时候,把用户执行授权,然后开始到执行中,执行完成,当然情况下可能也会有一些取消,就比如风险就规避,或者用户自己规避掉。

(2)、执行中

然后比如上图执行中,它可能是到执行成功,或者到执行失败地方,那么整个链路都是在地方有的。

(3)、定时任务

包括像上图中间定时任务也是一样的,定时比如先设定一个时间,但是设定时间之后,用户它可能现在定到凌晨两点钟,但是发现现在就有时间,现在就可以操作,发现业务不需要等到时候,那么可以手动去执行一下,所以会变成已经规避掉的状态。或者地方同样的,可能系统后台自动规避问题了。然后它就变成了取消。那下面也是一样的,系统自动执行,系统执行完成之后,地方分为失败,成功。逻辑是一样的。

(4)、不需要响应事件

当然还有一些事件上图右边这种,这种事情是不需要响应的,比如刚才的内核panic或者宕机迁移,宕机迁移事情是不需要客户响应的,因为它物理机已经非预期的挂掉了,那么系统会自动去执行,然后执行之后两个结果失败或者成功。

所以,有些事情是需要响应的,响应就比如刚才的板盘,或者需要客户预约重启的是需要响应的,那种是预期内的,然后,非预期的宕机的就不需要响应,事件是会自动执行的,不会再去询问客户。

是事件状态。image.png


十一、ECS 系统事件-应用场景

事件的一些应用。就取了比较常见的两个场景。

1.通知风险和异常

第一个来通知风险,通知客户,告诉你东西有异常,你需要去做什么动作,云监控里面的一个东西,云监控里的事件监控。可以去订阅一些事件规则,定义为一些事件,比如磁盘性能受损,或者本地盘出现异常警告的时候,假设比较关注这两个事情,比较关注这样的事情,那么可以去把它创建一个报警规则把,一旦是出现了这样的事件,那么会推到云监控,云监控会推到根据设置的这种告警的一些方式发给谁,或者下面这些服务。可以做一些自动操作。

2、实现自动化运维

(1)、信息服务队列

就介绍到了下面的一个场景,自动化运维,自动化运维响应事件,过来之后要去做什么,可以推给消息服务队列,然后那边客户可能去订阅消息,一旦信息推过来了,程序接收到了,其实客户它就能感知到出现了什么事件,出现比如性能受损也好,磁盘损坏也好,那么,它那边的应用就可以根据它自己去做一些自定义的动作,就比如它自己去调一下API接口,做一个切换或者把业务迁到什么地方,都是可以自动化运维的。

(2)、函数计算

是云上提供的,这样一些基本的能力,相当于客户可以自己去对接这样的一些能力,然后让它实现更智能化的一些动作。下面也会有很多,不止这种消息对待,其它函数计算也可以,因为现在serverless其实挺火的,可以不用单独去找一台机器来部署服务,可以用serverless。当请求过来的时候,才去创建一些资源,然后执行动作。就不用一直保留动作,这是一个降成本的一个动作,比较灵活的一个方式。

(3)、url 回调

url回调就很简单,相当于可以回掉的客户自己的服务,也可以回调到一些告警的一些通知的渠道上面,让它自己回调上去。

(4)、日志服务

日志服务加到日志里。

(5)、通道沉默周期

通道沉默的意思,相同的警告,比如在一个小时内,发生了十次相同的警告,那么可以配置一个小时内发生了十次只通知一次,那就通知一次之后,它在一个小时之内,再发生同样的事件不通知,保持一个沉默,可能管理员它就会认为它通知了一次之后,就已经知道事情了,相同通知就不要再发出来,相同事件,大概一个可以规避掉很多比较繁琐的一些事件!避免过多的被打扰,是云上的一个静默通道传播的事。image.png


十二、ECS 系统事件-事件处理

1.控制台

然后相当于在前面也提到了一些,控制台,其实一个预付费到期的时候告诉客户,到期了,还需不需要的事情,如果需要,可以自己去续费,或者设计一个自动续费的一个策略,不需要,可以把事情忽略掉。大概就这样一个事情。

2.自动化运维

然后刚才提到可以做一些自动化运维,自动化运维比如发生了一些事件,可以自动集成一些接口,服务去调接口来响应事件,响应时间或者执行本地盘的重新部署,本地盘的重新部署叫redeploylnstance,本地化磁盘其实重新部署的意思,迁移到一个新的物理机上,然后换一个全新的一个本地盘,就这样动作。当然这些动作,可能需要也去了解一下这些事件,它执行之后有什么影响,能不能让它去自动执行?自动执行的影响能不能接受?可能要评估完成之后,再去做这样一套自动化的流程。image.png


十三、ECS 进阶概念2

下面一章节重点可能会在一些问题排查的方面演示一些常见问题,云上的去排查,会做大概两个实验的一个演示,然后这两个实验其实因为资源的一些问题,这两个就单独没有实验,实验的可能只有上面云助手实验,然后主要是演示一下云上排查的一个思路,它的一些操作的步骤,一些方法,主要是从这方面考虑做一些演示。

1.linux-SSH 配置相关

这里列举了很多比如无法远程,报错的一些,非常常见的一些东西,就比如配置不对,方式不对,或者是配置密码错误或者其他,各种情景下它可能出现了一些报错,是其实就不一一细介绍了,其实可以教材上面的,可以自己看一下,就不一一去详细介绍这些东西。image.png

2.windows-系统配置相关

下图是 WINDOWS 相关的,也可以自己去看一下。

然后在 ecs 远程不上的情况下,可能要从几方面去排查。

(1)、网络、安全相关

第一方面的网络是不是通的?网络是不是通的有哪些方面?就比如服务器端口有没有监听,防火墙安全组有没有配置?这些都是安全组,或者是云防火墙,或者这种防暴力破解的规则,这种阵容大家会想为什么自己会被防爆的破解之类的,可能也会涉及到很多的东西,就比如现在很多运营商提供的家用宽带的ip,其实它是一些共享ip,它可能是一个功能的一个地址池出去的,我可能没有去发这些暴力破解的一些行为,但是有可能共享的上面它会有一些人,它在恶意的发一些这种攻击行为,那么可能被云盾识别到之后,当成暴力破解,它可能自动拦截掉了。事这是其中一种。

第二种云防火墙的方法,云防火墙也是安全的一个产品,它是在ecs前面的防火墙的一个功能,但功能是需要单独去开通的。然后功能,它可以在流量到达exercise之前,识别到这样的一些风险,然后把它给拦截掉。

然后剩下一个安全组,应该都有介绍到,其实访问ecs的一个入口。这一段可以顺便提一下,刚刚提到一个ddos,ddos是流量攻击,可能会想一下,那么安全组能不能防护ddos攻击?可能也会有误区,ddos的情况下,安全组常规的做一些安全的的策略,不希望它通过流量它过来,但是ddos它一点特殊的地方它流量很大,它在ecs之前,在公网入口的位置,就已经把入口给堵死了,所以安全组没办法去防止ddos攻击,它在安全组之前就已经相当于把公网的链路堵死,流量是进不来的,所以还没到安全组织来,这是一点。

另一方面可能要排查一下是不是本地网络有问题,本地网络有问题,很简单,比如做一些pel测试,或者是tell的测试,或者连不上a机器,但是可试试一下,能不能连上b机器?可是这样的去判断一下网络有没有问题。甚至还有一些更复杂的,稍微再复杂一些命令,比如可以用mtr或者trance root去做一些测试。

剩下的检查安全类的软件,其实防火墙的它不只是有安全组,预防火墙这东西,ecs内部是一台服务器,也可以装很多软件类的防火墙,比如windows它自带有防火墙,linux带自带有ip table,那其实都是有些防火墙的,这些规则有没有开放也是需要检查的。

然后也是比较常见的一个问题,端口,因为现在有很多做等保的一些要求,一些端口有可能向远程不能用默认端口,默认的二十二端口是不能用的,为什么不允许?因为二十二是都知道的一个端口,大家很明确可能有很多人在恶意的去扫这些端口,哪些是开放的,开放它可能要去发动一些暴力破解,暴力破解它可能,有一个密码词典,它从词典里面读取每一个密码,然后来试,来不停的试,试一下看能不能重合,它其实就相当于也是的不要用弱密码,弱密码通常都是在一些密码词典里面呈现的,那如果是使用很强的一些密码,比如十几,二十位的,数字大写小写那些特殊字符组合的密码,那么它包括的可能性是非常小的,因为它包括的原理,要么拿一个词典,要么去每一局穷举每一个可能性,那么,它如果越复杂,它们重举的可能性就会越小,但是它暴力破解理论上肯定是是能破解的,只是时间问题,大家可以自己了解一下这方面。

然后另一方面服务是否运行正常,WINDOWS有rtp服务,有windows linux服务,有ssh服务,那么这些服务是否运行正常,可能需要登录主机去看一下。


十四、实验-远程连接排查(方式一)

先演示一下实验,实验因为资源问题没有时间制作。image.png

1.出现远程错误

演示一个无法远程的一个case。现在切到ecs的控制台上面。这其实刚才都已经创建好一个测试机,而且故意把它的远程给搞坏了,搞坏了去演示一下怎么去排查,可以演示一下正常怎么去连一个机器,需要拿到这样一个客户端,那就直接就用的坏的终端演示一下,先去取得,它告诉说22端口是连不上的,是refuse的,那么其实刚才提到的,它是tell late,tell late原理给服务器发一个三次握手就TCP的三次握手。发一个三次握手的一个包过去,如果建连成功,它就认为成功了,可以看到是端口的。常见的命名,比如可以拼通,就说明服务器现在是活着,只是它远程可能有问题,而远程报错来看它是refused, refused 有很多可能性,有可能没有建立起来,有可能被应用安全软件拒绝掉了。image.png

2.登陆方式

那么时候,需要怎么去排查?时候,其实就可能上不了服务器,也没法去上物理机,也没法去看,上面提到的东西,可以用vnc去看,vnc在哪个位置?演示一下在控台这地方,远程连接是有一个按钮的,按钮点开,其实就能看到云上提供了一些登录方式。image.png

第一个是刚才提到的workbench,第二个其实一个VNC的一个功能。因为时候是连不上服务器,然后需要VNC的功能去看一下机器发生了什么。

3.登录 VNC

这是需要输入一个VNC密码的,然后密码,没有初始密码,在购买机器的时候也没有的,然后是第一次使用,是需要先重置一下密码。image.png

先重置一下。然后就下图确实其就进来了,实真的页面应该不是下图,image.png

真的应该是界面,现在就应该是下面的界面。界面比如那现在可以看到登录界面,其实就跟大家在IDC机房遇到的那些,直接接显示器,看到的是一样的界面,查看显示器可能就看得见一个welcome的一个登录界面。image.png

直接输入root。然后输入密码,这地方要注意一下,刚才输密码,它是没有任何显示的,它linux的密码是不会回来的,它连个信号都不会回去,空白,只管敲,之后进去看就好了。

4.手动重启

那么刚才看到22段都是连不上的,那先看一下。entstat看网络的一些联系信息,比如监听,那看一下一个服务,在机器内启动之后,肯定是需要监听一个端口的,那么端口,它对外提供一个服务,业务请求的时候,就请求端口才能把包文发到对应的应用进程里面,然后应用去完成处理,那可以看到地方有八零,有二十五,它只有两个端口监听。

那么这两个段时监听,其实明显不是想要的二十二端口,然后从进程也能看到在这地方也没ssh服务,很简单,怎么办?就看一下服务,手动重启一下。去尝试启动看一下,发现一启动它就卡住了,它可能也没有任何日志。那么怎么看?image.png

5.查看日志

卡住肯定是不正常的。然后这种情况下先把它退出来,去看一下服务日志。看一下服务的状态是什么样子就。可以看得到,下图是它也报错,因为刚才重起了一下,它有一个报错,告诉了配置文件的137行配置项是错的。配置项是不可用的。image.png

6.查看报错项

(1)、编辑命令

那就很简单,那去打开文件看一下这地方,告诉是etc里面的ssh。其实刚才也演示了,在云助手里面操作很方便,现在如果自己登上机器上,各种敲各种命令,而vim其实一个编辑文本文件的一个命令,编辑文本文件。image.png

(2)、查找错误行号

然后打开会很痛苦的。打开是下图样子。鼠标可能用不了,可能上下去翻。image.png

现在要去看它的137行是什么样子,然后可以看一下它的行号,要看行号可能要敲一下命令,左下角看敲的:set nu,地方要把行号打出来。现在要找到137号怎么办?不可能一直按键盘下来了。很多行,怎么去找?

: 137    

//可以看到刚才的冒号,冒号它到了一个输入命令的一个阶段,输入137号行号。image.png

(3)、修改错误

最后它就直接跳到137行。编辑器,可能大家用会很痛苦,而这看的明确一点,肯定不正常,然后上面报错也指出不正常,那么把它注释掉,看一下。linux里面,通常是井号键,前面加井号注释。

然后现在要把它保存,保存是一样的,先要输入冒号,冒号进入交互模式之后,然后输入w,wwrite,写入那个单词,然后再加一个q,q退出,quit。先写入再退出,现在文件就保存了,就已经written了。image.png

7.修改错误后启动

(1)、出现下一个错误

文件就已经保存好了,那再来尝试启动一下服务看一下。没发现还是卡住。那也没关系,这时候也报错也出来了,看一下现在的状态是,现在它出现下一个错误,是一环扣一环,可能查了a问题,出现b问题,然后一直修改一直查询,可能一直循环下去,是一个无底洞,插件的问题可能需要有点耐心,处理解决一个问题之后,可能还需要解决另一个问题。image.png

(2)、目录权限问题

这处错误是目录缺一些权限,那么目录是什么?目录可能sshd里面的一些缓存目录,它可能要往里面写一些东西,那么目录它可能没有写权限,它就没办法去启动,它就会报错。

那么可以直接去目录看一下,CD 是进入某个目录。然后看到地方,其实可以看一下,因为目录是刚才直接把它改了名字,然后可以看到它要sshd 目录,其实是没有的,再植入一个点,bak 的文件。 image.png

(3)、运维中注意点

其实这也给大家提个醒,在运维当中,包括上面改配置尽量都是注释掉模块配置,或者说某个文件觉得它有问题,把它改个名字,大家尽量不要去做删除操作,因为很多东西是不知道它有什么用的,很多东西是不知道它有什么用的,把它删掉之后,可能就会引起很多未知的问题,也是在运维当中,需要注意的一些点,生产环境尽量不要去做这种删除的大改动,一般觉得不对就给它备份一下再去改,或者给它注释掉再去改,大概就这样。

(4)、修改错误

然后刚才告诉目录可能错误,把文件尝试改回去试试。那么可以再尝试。现在还是卡住了。image.png

可以看一下这次报什么错?是长时间卡住了,可能卡的比较久,可以看下服务证的,地方告诉你已经running。image.png

8.查看是否监听

running 之后可能要确认下一步,服务到底有没有监听,那么netstet看一下22端口已经监听了,然后是一个思路,去看报错,每次去看报错。

相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
11月前
|
弹性计算 运维 Unix
《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(上):ECS 进阶概念-运维(1)
《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(上):ECS 进阶概念-运维(1)
142 0
|
11月前
|
弹性计算 运维 网络安全
《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(上):ECS 进阶概念-运维(2)
《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(上):ECS 进阶概念-运维(2)
154 0
|
11月前
|
弹性计算 运维 Shell
《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(上):ECS 进阶概念-运维(3)
《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(上):ECS 进阶概念-运维(3)
111 0
《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(上):ECS 进阶概念-运维(3)
|
11月前
|
弹性计算 运维 监控
《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(上):ECS 进阶概念-运维(6)
《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(上):ECS 进阶概念-运维(6)
70 0
|
11月前
|
弹性计算 运维 安全
《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(上):ECS 进阶概念-运维(5)
《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(上):ECS 进阶概念-运维(5)
159 0
|
11月前
|
弹性计算 运维 监控
《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(上):ECS 进阶概念-运维(4)
《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(上):ECS 进阶概念-运维(4)
79 0
|
11月前
|
云安全 弹性计算 运维
《企业运维之弹性计算原理与实践》——第四章 ECS 进阶概念-安全——第四章(上):ECS 进阶概念-安全(7)
《企业运维之弹性计算原理与实践》——第四章 ECS 进阶概念-安全——第四章(上):ECS 进阶概念-安全(7)
39 0
|
11月前
|
云安全 弹性计算 运维
《企业运维之弹性计算原理与实践》——第四章 ECS 进阶概念-安全——第四章(上):ECS 进阶概念-安全(4)
《企业运维之弹性计算原理与实践》——第四章 ECS 进阶概念-安全——第四章(上):ECS 进阶概念-安全(4)
74 0
|
11月前
|
弹性计算 运维 监控
《企业运维之弹性计算原理与实践》——第四章 ECS 进阶概念-安全——第四章(上):ECS 进阶概念-安全(6)
《企业运维之弹性计算原理与实践》——第四章 ECS 进阶概念-安全——第四章(上):ECS 进阶概念-安全(6)
52 0
|
11月前
|
弹性计算 JSON 运维
《企业运维之弹性计算原理与实践》——第四章 ECS 进阶概念-安全——第四章(上):ECS 进阶概念-安全(3)
《企业运维之弹性计算原理与实践》——第四章 ECS 进阶概念-安全——第四章(上):ECS 进阶概念-安全(3)
69 0