摘要:2022年3月22日,【全新升级 阿里云ECS CloudOps 2.0来啦!】发布会正式播出,本次发布会上阿里云宣布CloudOps(云上自动化运维)套件全新升级,并发布了CloudOps云上自动化运维白皮书2.0版本。
随着本次产品的升级,阿里云推出了配套的智能化产品方案,即“ECS成熟度评估与洞察(ECS insight)”,它基于用户的ECS多维度的使用数据,从基础能力、成本管理、自动化、可靠性、弹性和安全性六个维度帮助用户分析定位潜在的运维风险,并推荐对应解决方案与最佳实践,全方位帮助企业用户降本增效,提升业务连续性。
阿里云弹性计算高级产品专家贾少天在本次直播中带来了题为《ECS CloudOps新能力与最佳实践》的演讲,以下是他的演讲内容整理:
Cloudops是从自动化、弹性、成本、安全、稳定5个维度来提供能力帮助用户更好的解决日常遇到的各种问题。而这5个维度是期望通过各种各样的能力在用云的不同阶段来帮助用户,主要着力于从用云规划、架构设计到迁移上云、再到云上使用资源,最后对资源进行运维管理几个阶段让用户更高效、更精细、更智能、更开放的使用阿里云产品解决devops需求。
下面我就从新功能中选择几个为大家进行更进一步的介绍。
首先在规划设计阶段,第一个需要考虑的是成本问题。从成本优化角度来看,怎么做好成本管理是一个复杂且需要持续投入的过程。
从第一步资源付费类型的选择开始就需要全面的考虑,了解多种付费类型的特点,选择适合自己的一种或者多种付费类型来满足业务和成本双方面的需求,同时我们推荐的最佳实践是如图,通过抢占式+按量+预付费或saving Plan购买的按量实例多种实例规格的组合来实现成本最优的效果,兼顾了稳定和弹性的多重效果。
然后是如何选择合适的实例规格,用户需要根据自己的场景选择最符合性能及成本要求的实例规格,阿里云最近推出了倚天710实例,在计算密集型计算场景性能更加稳定,进一步扩充了更多的选择。
下一步在持续使用资源的过程中,用户需要根据自身业务不同阶段的情况来判断资源负载的合理性,然后通过垂直伸缩(比如升配降配等方式),水平扩缩容、对资源进行阶段性停机降低成本等方式来进一步优化成本。
最后,也是最重要的一步就是持续关注成本的变化,通过阿里云提供的企业级财务能力来深入了解费用情况及合理性,然后通过循环的方式回到第一步持续优化之前的选择,只有把成本视角融入到日常流程中才能达成持续提升成本优化效果的目标。
同时,在规划设计阶段,对于云上资源使用的高可用设计也需要有明确的设计,根据用户自身业务短期和长期的发展情况,选择合适的高可用设计思路来满足业务的发展需要。
从最基本通过部署集功能实现物理机级别的高可用,到通过弹性产品或自主编程的方式,实现多可用区级别的高可用,再到最复杂、成本相对最高且效果最好的多地域高可用,多种方式可以让不同场景的用户在设计阶段就打下了高可用的基础。
当经历了规划设计阶段之后,如果用户有线下资源或者其他云厂商资源需要迁移到阿里云,阿里云也提供了“服务器迁移中心”产品,帮助用户把其他地方的服务器高效的迁移到阿里云。
而且在原有的服务器迁移的基础上进一步发布了4种全新的迁移能力,如支持停止维护的CentOS实例平滑迁移到Alibaba cloud linux及龙蜥系统等长期维护的系统,支持突破实例规划分布情况限制和可用区限制的跨可用区迁移ECS、支持从VMware通过agentless也就是无代理的方式免费迁移到阿里云以及从线下的笔记本、PC等快速迁移到阿里云无影云桌面的迁移能力,扩展了更多的迁移场景来满足不同用户的需求场景。
完成了迁移的工作,下一步我们看下帮助用户高效使用ECS资源的弹性伸缩又推出了哪些更精细更智能的功能。
第一,当用户面对上千种实例规格的时候,怎么更快的选择实例越来越成为一个难题,弹性伸缩基于此推出了基于规格属性的智能选型,通过定义vCPU核数、内存大小、规格族等属性,弹性伸缩就能自动帮助用户圈定一批实例规格来完成弹性场景的需求。
第二,发布15秒的监控指标和多指标联合的报警能力让通过负载变化的触发速度更快更精准。
第三,原有的ECS弹性伸缩的基础上发布了ECI弹性伸缩,让想使用容器的用户不用maintain k8s集群,最简单的使用上ECI这个兼容容器生态的实例类型。
第四,持续优化迭代的预测型伸缩组,让机器学习帮助用户做扩缩容的决策。它可以通过过去两天用户使用ECS资源的负载和实例数量的变化,预测未来1~14天的实例资源的使用情况。希望这些功能在各个点上能帮助用户更多的使用云的弹性。
另外还有资源使用阶段可以帮助提升安全系数,降低风险的安全功能大家也可以了解下,比如阿里云提供了加密计算环境、系统盘的原声加密能力、非root账号登陆、镜像原声加密能力、加密快照等,帮助对安全合规有更高要求的用户快速的提升安全系数。
再下一个阶段就是对资源的运维管理阶段了,这里我会着重为大家带来4款新的能力,提升资源运维阶段的效率,降低日常运维工作的门槛。
第一个是标签服务提供的创建者标签功能,用户只需要在控制台对功能进行开启,阿里云的标签服务就会完全自动的帮助用户对账号下创建的资源打上创建者标签,比如一些资源是由子账号创建的,则这些资源就会自动打上有子账号信息的标签,由主账号创建的则打上有主账号信息的标签。
如果是由各个云产品通过用户授权的方式帮用户创建的资源,则会打上对应云服务的标签,让用户仅通过一步操作就能从账号角度对资源进行全面的分类,特别是一个公司内多个团队通过多个子账号来创建资源的情况下,方便用户更清晰的识别出来资源的来源和归属,从而进一步通过这个标签的分组来进行分账、运维等更多操作。
第二个为大家带来的运维管理新功能是云助手产品提供的“会话管理功能”,用于优化日常需要登陆到ECS机器上进行运维操作的场景。往常用户如果实现ECS资源登陆能力,要么需要设置外网IP,要么需要购置跳板机来提升安全性,然后通过跳板机进行登记,而且继续是成功登陆,后续的所有操作都无法进行方便的审计。云助手推出的会话管理功能就是为了解决这些痛点。
会话管理推出了免公网、免跳板机、免密码的快速登录方式,用户只需要在控制台一键开启就能使用,而且所有在资源上的操作都能保存下来进行审计,做到简化操作的同时具有审计安全的能力。
第三个是我们新推出的阿里云客户端产品,很多用户反馈日常管理资源没有一个相对集中的入口,每次通过传统的ssh进行远程连接的时候,都需要先获取ECS网络信息之后再在ssh工具中进行操作,而重启等操作又要去别的地方才能完成。
阿里云客户端是一个集合了ssh+阿里云资源管理+简单易用+多账号管理的软件,可以下载到本地之后轻松完成对于资源的高效运维,里面也包含了前面提到的支持免密登录的会话管理功能,真正做到让每天的运维工作事半功倍。
最后一个运维管理功能介绍是资源编排产品推出的Terraform托管功能,目前有很多的用户都是用Terraform来管理和使用云资源,资源编排产品在原生Terraform的基础上除了提供帮助用户执行模版能力外还提供了更多的附加能力,比如通过Terraform模版来进行资源询价和费用计算、进行资源标签或资源组的传递、多账号多地域一致性部署等能力,让很多在Terraform上无法实现的功能都能在ROS的托管能力上快速实现,帮助用户更好的使用Terraform能力。
以上就是我带来的从规划设计、到迁移上云、再到资源使用以及最后的运维管理4个阶段的新功能介绍,感谢大家的观看。
点击链接回看精彩直播,点击链接/扫码还可阅读/下载《CloudOps云上自动化运维白皮书2.0》