开发者学堂课程【企业运维之弹性计算原理与实践:【视频】-《云服务及弹性产品介绍》】学习笔记(三),与课程紧密连接,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1039/detail/15255
【视频】-《云服务及弹性产品介绍》
内容介绍:
一、课程预览
二、云计算的概念与技术发展
三、云计算部署模式
四、云计算的关键技术
五、阿里云简介
六、阿里云弹性计算
七、课程回顾
八、实验
六、阿里云弹性计算
1.分析师眼中的阿里云弹性计算
阿里云的弹性计算,首先第一个看分析师眼中阿里云的弹性计算。阿里云弹性计算是重中之重,包括阿里云内部是一个非常有特色或者非常有亮点的服务。第一点是在评分当中,举一个例子,在2020年评分当中,阿里云的前两项是required跟preferred,是客户对要求的两点中都拿到了满分,并且在计算类产品当中总体的得分也是第一的,在2022年,Gartner 评论当中,在IAAS层计算、存储、网络、稳定性跟安全性上已经超过了 AWS,综合能力已经达到了全球第一,包括阿里云新生的service ECI 的能力、容器的安全、弹性计算的产品的形态,以及应用性能等,都已经全面领先,在 Gartner 比较权威的评价中,阿里云的弹计算能力已经是非常高的
2.安全、稳定、领先的弹性计算(ECS)
阿里云的ECS在Gartner中会排名第一,最主要是有四个特点,一是安全,其次是稳定,领先以及弹性。
极致安全的弹性计算
安全是所有企业上云的基础,本身弹性计算也是把云上安全作为非常重要的部分不断的攻克,极致安全的弹性里括了云平台侧,从身份访问的控制,包括身份认证,访问授权,账号管理,操作审计等都进行了相应的控制。其次是谈到的云平台侧的物理安全,包括硬件安全,都会通过目前所有发布的一些产品,包括公告通知,虚拟化的安全,云产品本身的安全以及平台的安全监管和运营,建立起完善的保障体系,在客户侧也给提供了各种各样的安全的功能或者产品给大家服务,互联网的用户或会收到很多用户的反馈,比如机器被的DDOS攻击或进入了黑洞,或者是密码被暴力破解,其实就是类似于互联网常见的一些攻击模式,包括DDOS,外部注入,路径便利攻击的方法,阿里云通过所有提供的些服务,包括免费的5G的防DDOS 的技术防控攻击,还要结合大数据的AI的学习等都实现了一套自动化的防护跟动态适配的防护策略,能够保障客户在ECS上做部署,包括日常运维的安全,更多客户被攻击,不是云上没有能力,而是不知如何使用相应的能力防护业务系统,里面包括RAM授权、安全组的配置、云盾DDOS的攻击等,都是可以使用外围产品,从不同的维度进行安全防护。后面也会有章节对安全进行专门的介绍。
极致稳定的弹性计算
稳定性也是非常重要的一部分,在线下的IDC的环境,也会遇到比如硬盘坏了、线路断掉了都是难免的,因为硬件会有损耗,为什么阿里云可以做到在官网上抛出牛逼的数据,单实力可能性要达到99.975,数据远远领先其他厂商,包括跨AZ多实例的可用性达到四个九,优势是很明显的,都是由于线上各个不同的技术以及软件硬件的组合,才能够给客户承诺达到这一的一个可能性的SLA,阿里云本身支持并且集团的一个上云,包括淘宝、天猫大型的电商,双11大促的磨练,有了业务高峰,以及承载很多峰值流量的磨练,才能够呈现出超大规模的计算集群的一些稳定性的能力。
其次是跟达摩院机器学习合作去主动预测硬件的故障,将一些故障进行主动预测之后,会进行相应的主动迁移,客户会无感的去避免相应的硬件的风险,比如检测到很多内存有问题,会在后台进行热牵引,发动一个热牵引,客户其实不知道他的机器是从一台物理机飘到另外一台物理机,也是得益于热迁移的一个功能,也有预测的,硬件故障预测集群的学习的能力体现在当中,
在这些场景下,还有底下各种各样的功能,有这些技术的加持,才能够保障稳定性能够达到样的一个高度,这个是不是最终的目标现在不确定,但由于有这些功能,并且在服务侧,现在也会对于稳定性有相应的一些保障措施,无论是客户对于稳定性有一些担心,或者最近的宕机出现的一些问题,其实在服务层都会帮客户去做相应的重保的活动,来保障进行一些个宕机率的集中分析,如果发现可能平台侧的问题进行一个高优先级的处理,有了这些研发侧、产品测以及服务侧的共同合作,才能够保证出弹性资源的稳定性。
云上极致弹性
最后一点是弹性能力,弹性能力是给客户能够带来最灵活程度的爱需使用,并且能够保证一些大幅成本的下降,对云厂商,事情其实挺痛苦,因为极致的弹性,势必会涉及到如何处理高并发的请求,以及如果竞争、部署之间会有抢占的一些关系,如何来保证高并发能够在很短时间内完成扩容需求,不光是资源的深度问题,能够确保有足够的服务器,应对客户的需求,更多的是资源开启的速度,如何能够保证后台高并发能够正常的去,无论从管控侧还是从后台的虚拟化侧,把台机器快速的创建出来,有时创建机器或者在其他平台上创建机器,可能要花三分钟创建,但是在阿里云单台实力可能花的时间会很短,如果是多台机器,比如有的客户会要求在单地域,比如在上海地区要在短时间内五分钟内拉起上万台机器,也有跨区域,比如需要跨业级,甚至跨集群来做,也是在分钟级别开启上万台的一个机器,在这些场景下,都有遇到过,比如服务于钉钉,钉钉在四小时之内,在线交易的高峰期时,要扩超过1万台的机器,并且要保证机器的创建成功率等。包括一些网站,网站它对于扩容的时间的要求,以及业务快速膨胀的情况下,云服务器能不能正常扩展出来,正是因为有这样大量的客户的需求,包括业务上的实践,在不停的改善中很好的支持在线办公、在线教育、在线娱乐的一些客户的需求,保证弹性的成功。
3.基础设施架构的选择围绕可用性优中选优
技术架构对客户来讲,并没有特别关心,有一些客户其实会比较关心,比如出现一些AB供电的问题等,都是在技术架构、机房提供的高可用的能力,包括网络上不同的AZ之间冗余性以及延迟性的架构上的一些设计,最后是BGP的接入,BGP接入有很多客户也是比较关心的,因为涉及到多个运营商,这边也是接入了BGP的3+N的多线BGP来保证来自不同运营商客户的需求。
4.稳定的盘古&块存储
快存储对于分布式系统,在多个角度会进行一些多副本的部署来保证它的稳定性,其次是会做端到端的数据校验,无论是通过EC还是通过其他的方式来去做保障数据完整性,以及数据的一些持有性,都是针对于数据持有性或者数据本身的保护,对于高可用性,在节点以及集群的level,会做相应的高可用的架构的设计,还有故障隔离能力的设计来保障分布式存储系统能够很方便或者给客户提供强力的保障,快存储强调的跟ECS的关系是快存储上用到的磁盘,会接触到的ESSD,包括SSD或者高效硬盘都会用到快存储。
5.诊断与修复能力一览表
从服务的角度来讲,其实是有很多的诊断的能力,因为在运维过程当中可能会出现一些问题,包括用户场景里面涉及到的实力启停,性能,无论是丢包还是延迟,或者是CPU带宽打码的情况,都是在平时的诊断或者服务当中会遇到的,把这些东西也集成到控制台,可能有很多客户都没有使用过,ECS有自诊断的一些能力,在提问题之前可以通过种方式来去大概了解一下,或者排除一些可能性,本身平台提供的一些诊断能力可以有比如ECS本身系统的一些能力,一些磁盘的诊断能力,网络还有OS的配置等,最后给出相应的修订方案,无论是建议客户去做一些调整,还是需要告诉客户具体的原因,建议客户去做相应的分配等,都是会提供相应的一些诊断的能力,包括修复的一些建议
6.全场景——线下数字资产平滑上云
弹性计算有很多的产品,其实主要会分三类,ECS主要会分三类,三类包括云服务器及弹性容器,第二类是专有宿主机,第三类是裸金属,现在很多客户其实会用到,大多数客户用到更多的是ECS这块,其实就是最基本的,提供虚拟机给到客户,整个物理机是多租户使用的,比如左图左上角橙色部分这台机器是分配给我,称为logon,后面的other users分配给其他的客户,比如叫Alice,但是并不知道Alice是在同一台物理机上做了相应的租户隔离,整体来讲都是阿里云本身自己去托管,有可能会遇到一些情况,也是云厂商经常会遇到一些情况,如果在同一台物理机上,尽管会做到资源隔离,但并不是资源隔离100%生效,或者是100%隔离,可能会出现一些资源争抢的情况,资源争抢情况就会造成,比如机器性能莫名其妙变差,原因可能是因为Alice抢了更多的资源,在种情况下,有些客户可能希望部署的机器都由自己去管,而不是跟其他人去做一些共享,这种情况下可以去使用场景,可以考虑专有速度及DDH,DDH提供的是客户单租户,logon一个人享有整台物理机,在物理机上如何部署都行,比如物理机有32个核,32核如何配,比如配4、4、20多都可以,或者配8核,4,再配20都可以,都是自己决定,也不会跟其他人产生争抢,这个是重要速度机的一个概念,第三是裸金属,裸金属是给你一台服务器,连虚拟化都没有部署,直接在物理机直通,比如物理机直接拿过来用,就是作为一个大的编,或者是自己部署一些虚拟化都可以。一般的使用场景比如客户侧,有一些安全合规的要求,比如不希望中间过一层阿里云自己的一些虚拟化,不希望跟其他租户去共享同一台物理机,甚至想用自己的虚拟化的方式,不想用神龙等,就想用hyper V或者所有的一个多云的环境下,用同一套的虚拟化技术,可能是自研的虚拟化技术去做,金属提供给你,在里面自己想如何玩都可以,这种情况下就有很多客户会选中裸金属,因为他们在混合云的场景下,比如自己的IDC,其实用到了自己机房、自己的一些虚拟化的技术,同时在其他的云上也用到了这样的一些技术,提供逻辑是服务器,满足混合云以及多元部署的一些诉求,我们的一些客户,包括得物、字节,这些客户都会采购裸金属的一些机器,来满足平时多云部署,或者是混合云部署的一些要求
7.弹性计算实例-多种垂直场景高性价比覆盖
弹性运算优势,它的安全性比较好、稳定性好、弹性比较好,并且业务场景比较多,针对不同的客户可以提供不同的场景
弹性计算有哪些部署的规格,如果在官网上选,会发现其实现在的部署规格实在太多,原因是客户的需求太多,有的对于计算要求比较高,有些对内存要求比较高,有些对网络的要求比较高,有些需要一些GPU,也有对于FPGA也有需要的,针对不同的云上业务类型,简单的总结了一个mapping的关系,可以通过张表对号入座,应用可以用到什么情况,比如有些客户是做网站的,自己可以去查看一下价格,可以在这个当中做一些选型,包括一些网关类型的,可以用网络增强型等,举个例子网络增强型,网络增强型里面提供了整机100G的带宽,包括2400万的个PDS的转化能力以及1600万session并发的能力,如果客户自建的一些网关,网源,比如负载均衡、SLB或者是自建的一些net,防火墙或者前端的NGX服务器都能给客户满足云上业务的要求,可能一台机器PDS的转发能力,可以抵过线下的数台的是位机。还有比如GPU的一些实例,也会有很多做一些模型训练或者机器学习的企业会用到,比如科大讯飞等都用了一些GPU的实例去做一些图像的渲染,视频的渲染以及机器学习、配置等,后续PDF也会放在训练中,如果对使用场景有疑问,或者想要去参考,可以用这张表来去看一下。
8.弹性计算实例规格族概览
分类通过三类主要是通用计算,里面主要是用来去做一些比较日常使用的场景,包括一些网站,电商,一些数据库或者OLTP的的业务模式,会用到通用计算,其次是异构计算,用到GPU等场景,最后是高性能计算,HTC的一些类型,超算的类型,有时客户也是会需要,比如用到萨帕纳、SAP的业务等。
9.通用实例:客户上云的默认选择
第一个是通用的类型,通用类型是默认,或者如果没有对规格及有一定了解,可以用通用类型,它在CPU内存以及网络上都是比较均衡的,包括其中自建的一些dragon help weather,还有神龙架构,以及自研的ESD全闪存都能够达到业界非常领先的标准,包括网络的转发的能力,延迟的能力,其次就是延迟,存储的IO的延迟,无论是PI0的性价比以及延迟进入了100每秒的超低延迟,其次是高吞吐的LPS等,都是ESD的一些优势,其次是提到的一些稳定性的能力等,通用实例是如果客户没有明确一定要用,比如异构或者超算类型,会比较推荐的一个实例的选型。
10.高主频实例:算力密集场景下的高性价比选择
比较受欢迎的是高主频的实例,高主频实例用到的也是因特尔的期待,应该是至强的第三代,就是cooperlate这样的一些处理器,整体全衡的锐屏可以达到3.8G,它的CPU处理是非常强的。另外,它的一个亮点是它的物理网络的架构,带宽其实是可以大幅的提高,包括它的网络的一个带宽,它的网络的转发率都是非常高的,其实在游戏的场景,在线教育电商的这些场景的客户下,对于高主频实例都是有一个很好的应用。
11.超大内存实例:为内存型数据库提供更高的可扩展性
其次是超大内存的实例,是企业系统,比如ERP的系统,机房用到的都是一些超大内存的一些实例,才能够保证像SAP HANA企业级的ERP核心数据库能够在上面稳定运行,阿里云其实也是提供了一个SAP HANA的规格级实例,它是国内云厂商唯一认定的3T到6T的一个超大内存的实例,给客户提供了非常大的内存的容量跟算力,保障客户的企业核心应用,如果在云上跑是没有问题的。
12.异构计算:丰富的产品形态,满足多样化需求
异构产品使用的场景比较多,主要是用到N卡的一些客户,还有可能A卡就是英特尔这些,里面其实使用场景比较多的是图像处理、包括阿里云内部达摩院使用的一些基础学习神经网络,包括科学计算等,在这些场景下,提供的个异构的能力,都能够让客户将自己的图片渲染一些,包括人脸识别、语音识别的一些业务能够搬到云上。
13.神龙 AI 加速引擎,让人工智能计算更高效
神龙加速引擎,里面包括神龙自主研发的一款工具AIACC,引擎是通过业界主流的开源框架进行统一的加速处理,包括如果用一些训练模型都是能够去很好的帮助人工智能计算,更高效更快速的进行识别以及训练。弹性计算选型会有很多,日常的一些情况是一些通用型,针对于不同的一些其他的一些企业级业务场景,可以针对不同业务场景,根据上面PPT的一些类型进行选型。
14.弹性计算四大解决方案——赋能数字经济转型最佳实践
解决方案第一个是通过一些超算或者大数据的一些种实例规格,客户将他的业务直接跑在弹性的云上,无论是想放在螺钉数还是想放在各中ECS上都可以,其次是业务亮点之一——弹性容器,可以单独跑一个ECI的节点,在上面跑pod或者跑一些容器的服务,其次是一些模型预测的控制以及AI渲染的控制,都可以通过异构的类型,包括神龙加速的AI训练模型来去进行相应的最佳实践。
15.弹性计算已服务的客户
会有越来越多的提量在不同的一个领域给客户提供相应一个服务。
七、课程回顾
有几大部分,一部分是云计算,包括云计算有哪些特点,云计算的定义,它的一些技术发展从比如1.0到2.0到3.0,到现在的云原生,这些云计算的发展特点,第二个是我现在云计算的一个部署模式,包括个公有云、私有云、混合云,在什么情况下会建议客户用混合云,类似于中样的一些场景,第三个是讲到云计算的一个关键的技术,包括虚拟化的技术,更多的是如何把计算资源做隔离,其次是网络SDN,最后是分布式存储的一些概念。接下来简单介绍阿里云的体系结构,到底都提供了哪些,包括基础架构,基础的底座都有哪些,包括提供的原子能力,ECS网络、存储等,再往上是利用这些原子能力以及行业的一些经验,还有包括服务来去提供的一些技术的最佳实践,包括行业的一些解决方案等,之后是一些云市场,可以给客户提供一些三方的生态的镜像,包括提供一些对应的一些API的SARS服务,最后我是弹性计算的一些内容,弹性计算内容首先是为什么阿里云弹性计算比较厉害,包括现在也是业界领先的一些能力等,其次是弹性计算的一些优势,讲到了它有三个大优势,安全、稳定、弹性。其次为什么有这样几个特点,包括它从基础架构的方向,分布式存储,产品有多形态来保障客户的业务能够稳定上云,能够稳定用满足他的各个需求,无论是通过RCS,专有宿主机,裸金属,最后介绍了弹性计算的一些规格,一般会用到哪些类型的实例,包括通用的实例,高主频的实例,超大内存的实例,还有GPU的一些实例以及时钟减速引擎,最后还有DDH跟裸金属,。最后介绍弹性最佳实践,最佳时间更多的可能是一个宽泛的,能用到哪些场景,或者现在有哪些具体的案例,对于云计算有一个比较整体的认识,其次对弹性计算有一个简单的了解,之后接触到ECS,ECS里面的一些运维的最佳时机,比如有一些快照,会有安全组。
八、实验
实验对于没有操作过ECS的同学能够对于ECS有一个了解,知道控制台上如何去操作,比如点哪个代表什么含义,教如何远程登录ECS,通过那种方式登录。后个实验的入口会在今年培训之后,个开放出来。实验的入口在培训之后开放出来。第一步是登录到里面创建资源。
创建资源的地方可以看到,一般会花一段时间,里面会有哪些东西?一个是资源,首先你会有一个子账户,就是登录控制台的一个用户,用户名的密码,AKSK主要是用于做一些API调用的,在这个实验当中一般用不到。接下来一般会做的操作是创建好之后去登录到控制台上,登录到控制台之后,去看创建的一台ECS,ECS包括弹性IP,即公网IP,通过什方式能够连上它,也包括一个私网IP,就是私有地址,会有一个VPC的概念,实例的私网的地址什么,VPC内进行个两台机的沟通,接下来两个是用户名的密码,登录台实例的用户名密码,是实例的ID,可以想象是这台ECS单独有的一个实例,之后是起的一个实例名,部署在上海。先进去看一下。
第一步是打开个浏览器,需要输一下用户名,用户名复制一下就好。接下来是密码,登录,之后就进入了控制台,控制台里面是有几项的,就是有各种各样的云产品
选第一个就是弹性计算里面的云服务器ECS,ECS里面找到那台服务器,现在其实在上海有两台服务器。
可以通过右侧查看实例,通过实例id或弹性官网ip查看,点击实例详情,可以看到具体的信息。
比如可以看到云盘,刚才讲的盘古的云盘,它其实是有两块盘的,第一块肯定是系统盘,装有它的操作系统,还有一个数据盘。里面就是有两块盘都是高效云盘,高效云盘相对性能会没有那么好,相对ESD来讲,它的性能是1096LPS,左侧有密码,但是可以去做,在实验手册里,教大家如何去重置密码,假如忘记密码要做的一些操作,通过控制台都可以做
可以个把个实验手册当中的个重置密码密码拷进去,保存,注意密码,当要修改密码,控制台上修改密码是需要重启,这个地方会确认是否重启
点立即重启就可以,重启之后,可以看到它状态是停止中,也是一个知识点,后续会讲实例的生命周期,看一下会变成什么状态,启动中,不停的我可以刷新,现在是运行中
有不同的状态,之后会讲不同的状态代表什么含义,如何通过状态判断现在位置,实验做到把实例的密码进行修改,接下来简单的一个操作,控制台上简单操作先这样,接下来去远程登录到这台机器上,把控制台缩小一下,用到个terminal的终端,终端可以通过SSH的协议远程连接到这台实例上,云资源用户名是root,因为是从个这台机器连上的,需要通过公网,公堂IP去连它,root代表用户名,去连哪台机器,即root@公网IP,需要把user或IP加到known hosts中,选yes,里面需要输入密码,刚才是把密码改掉了,改成password,现在用password填在上面,里面不会把个密码给打出来,不会显示出来,已经粘贴好,点一下回车,就已经登录进去了。
登录到阿里云的ECS台实例里面,实例名就是看到的jbct,Z是个转
移符的关系,包括前面个也是,问题都不大,比如登录到里面可以看
到网卡
这张是ETH0,也就是主网卡,它的私网IP是172.16.1.28这个 IP,比如公网 IP,通过Q的方式,拿到公网IP是101.1330163.101。最终的目的是把个实例能够登录进来,在里面敲几个命令确认一下这台实例是不是登录的一个实例就可以。