为了更好地帮助用户在借助DevOps工具缩短开发周期、提升业务效率的同时,也能让业务保持稳定、安全、可靠,且低成本地持续运营,阿里云弹性计算团队独家出品的【弹性计算技术公开课_CloudOps云上运维季】正式启动。阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。该系列共10节直播课程,在阿里云官网、阿里云微信视频号、CSDN官网、阿里云钉钉视频号、阿里云开发者微信视频号同步播出,本次课程由战略合作媒体CSDN独家支持。
CloudOps云上运维系列课程第五节由阿里云弹性计算技术专家朱士松主讲《多云基础设施的统一纳管与运维实践》,点击下方链接进入【CloudOps云上运维】课程专题页即可观看课程回放,还可了解最新课程资讯。
【CloudOps云上运维:https://developer.aliyun.com/topic/ecs-cloudops】
以下内容根据朱士松的课程整理而成,供阅览:
据市场调查显示,企业出于安全、灵活、成本等多方面的综合考虑,希望可以使用不同的语音平台,利用其中的计算、存储和服务来运行自己企业的应用。其中一部分企业选择将公有云和私有云进行混合匹配,根据不同业务的特性,组合出最适合的运营方式以获得整体上的最佳效果。因此,混合云的使用范围会越来越广,并逐渐成为全球范围内企业用云的一种重要形态,但在使用混合云时,相较于使用单一的云,在管理和运维上复杂程度也成倍增长。
本节课将针对该问题介绍企业使用多云或混合运营后会遇到哪些新的挑战和问题以及怎样解决这些问题,并从以下四个方面展开:
∙ 第一,在使用多云的场景下,企业组织遇到的新的挑战,分析这些新挑战形成背后的原因并推导出相应的解决方案,以及阿里云Ops积累的最佳实践;
∙ 第二,介绍多云主机统一纳管的需求背景,如何完成多云主机的纳管,以及怎样实现灵活的资源管理和权限管理;
∙ 第三,介绍多云主机统一运维的需求背景,以及如何利用云上现有的技术体系实现多云主题的统一运维、高效运维和安全运维;
∙ 第四,介绍多云运维中一些比较复杂的问题和常见的场景,以及如何利用现有的阿里云技术体系实现多云主机的紧密协同工作。
1. 多云的发展和管理挑战
1) 使用多云的组织面临的挑战
多云和混合云已经成为企业组织用云的一种重要形态,一份专业机构发布的调查报告显示,在多数企业使用多云时都遇到了一些严峻的挑战。对于企业用户来说,排列在前四的问题有成本管理、多云管理、知识缺乏和安全管理。其中多云管理和知识缺乏并列第二,80%的企业认为多云管理是他们所面临的一项重要挑战。
2) 使用多云或混合云以后,企业技术遇到的新挑战
首先,从服务器运维的思想说起,企业组织用云的事项主要包括:资源的采购、网络的组建、资源的分配和资源的使用。
在资源使用上,计算、存储、网络等主要资源,以计算资源(即云服务器)的管理和使用,成为了运维工作的中心。云服务器的使用事项包含服务器的生命周期管理(即创建与释放),系统环境的初始化。最后,云服务器被用来部署和运行企业的应用,并且保持功能迭代的应用更新。
在应用运行期间,还需要持续对系统进行监控,采集数据以观测系统的健康状况。然后,根据监控所得到的数据,分析和修复服务问题,或者对应用进行扩容与缩容。
为了提升事项的处理效率,用户一般通过使用自动化的系统,进行相关的操作,而且多数云平台上,一般也提供有相应的服务。但是,在使用多云或混合云的新的使用场景下,传统的管理与运维方式会相对低效。
3) 使用多云或混合云以后,企业面临的新问题及背后的原因分析
首先,因为各家云平台都有各自的技术体系与管理门户,其只管理自家的云资源,会形成信息孤岛;
而且,作为多云的管理者与使用者,需在多家云平台,使用多个入口分别管理不同的云上资源,且不同的云平台提供的功能与服务虽然大体上有趋同的走向,但细节差异也很多,在使用这些系统时,需要注意它们的差异,这不仅需要花费漫长的时间,而且很容易因为知识不足或操作失误导致事故;
此外,不同的云平台提供的API接口与访问方式也各不相同,当企业因业务的需要将自家系统与云平台对接时,需要与每家云分别对接,使得开发难度增大,工作量增多,为企业用户带来沉重的负担;最后,即使克服了这种种困难,完成了多云的对接,还会发现在需要多云紧密协同时,例如一起执行某种任务、汇总监控数据时,九成需要把云平台已有的功能再重新开发一遍。
通过对背后原因的分析,可以得出一种针对性的解决办法,即避免同时对接多个云平台,而是选出一家云平台,把不同平台上的服务器集中在一起进行管理和运维。如果能完成该设想,那么在管理与使用多云和混合云时就可以像使用一家云一样简捷方便,从而大大减轻使用者和管理者的负担,也降低了部分风险。
2. 多云服务器的高效管理
在前面的统一运维设想中,需要现实的第一步是:将不同云平台下的主机,纳入到一家云平台上,统一进行管理与运维。下面继续分享在多云主机的统一纳管方面,阿里云CloudOps积累经验和推荐的最佳实践。
1) 多云服务器的统一纳管
通过刚才的分析,了解到用户的第一项诉求是:统一管理入口,消除信息孤岛。为了实现这个目的,可以使用阿里云的“托管实例”解决方案。
阿里云的托管实例是通过将非阿里云的主机安装阿里云云助手背景的程序,将不同云平台上的云服务器统一注册和托管的阿里云上,并且给予这些机器新的阿里云的身份标识。
同时,阿里云相关的运维类产品也都能够识别这个身份,并且为托管实例提供与ECS实例同等的服务能力。
将非阿里云的主机托管到阿里云上的前提条件和需要执行操作如下:
(1)首先,根据该主机的网络条件,选择接入到阿里云的方式,接入方式有两大类:
①使用公网接入:主机可以直接访问公网,或通过代理服务器访问公网。
②使用专线接入:主机通过使用阿里云高速通道、VPN网关等方式实现与阿里云VPC的连接。
(2)在确定接入方式之后,可以在ECS云助手控制台上,填写注册表单,生成注册脚本,把得到的脚本复制了目标机器上执行。
通过上述操作,就完成了云下主机到阿里云主机的托管。这时,可以在云助手控制台上看到托管实例,该主机会获得一个在阿里云的身份编制,并且可以在阿里云,使用多种免费的在线管理和运维服务。
2) 通过资源分组,实现高效管理
当托管实例的数据越来越多并达到一定的规模后,就需要有一种灵活的方式,标识出这些资源的关联信息,例如它们属于哪个业务部门?所属的地域是哪里?所属的生产环境是什么?可以被哪些人员使用?
只要能够标识出托管实例的各种关联信息,实现分组的查看和筛选。为了解决这两类问题,可以借助TAG标签管理系统,通过给资源打上各种标签,也就是用户自定义的键值对,实现资源的分类查看和分组管理。
例如,上图中有多个ECS实例和托管实例,分别于属于不同的部门、地域环境,在给资源打上相应的标签后,就可以按地域找到属于朝阳区的资源,或者按部门找到信息部的资源,或者按生产环境找到相应生产环境下的资源,或者多个条件同时使用,筛选出既属于信息部又属于生产环境的资源。通过给资源添加多种标签,不仅可以实现分组查看,而且可以灵活授权管理。
接下来学习如何通过TAG标签管理与RAM访问控制,高效地进行权限管理,为不同RAM用户,灵活分配的资源的访问权限。
3) 为不同的人员,配置相应的权限
前面的内容中,通过使用标签,介绍了如何实现对资源的灵活、多维度的分组管理、分组查看。那么,与用户相关的另一个常见问题是托管实例可以被哪些人员使用?怎样管理和分配使用权限?这里通过两个示例说明如何通过RAM的访问控制,实现灵活的资源权限管理。
(1)示例一:按资源tag授权
如左图所示,在RAM权限策略描述脚本中,添加Condition StringEquals语句,而且指定acs:ResourceTag/team标签的值包含有CICD,这样被授予了该权限的用户,就可以访问和使用所有的拥有标签team=CICD的资源。
(2)示例二:按实例ID授权
如右图所示,在RAM权限策略描述脚本中,给Resource列表添加两个托管实例ID。这样被授予了该权限的用户,就可以查看和操作这两个指定的托管实例。
更多精彩内容,欢迎观看:
带你读《云上自动化运维宝典》——多云基础设施的统一纳管与运维实践分享(2):https://developer.aliyun.com/article/1405373