带你读《云上自动化运维宝典》——多云基础设施的统一纳管与运维实践分享(1)

简介: 带你读《云上自动化运维宝典》——多云基础设施的统一纳管与运维实践分享(1)

为了更好地帮助用户在借助DevOps工具缩短开发周期、提升业务效率的同时,也能让业务保持稳定、安全、可靠,且低成本地持续运营,阿里云弹性计算团队独家出品的【弹性计算技术公开课_CloudOps云上运维季】正式启动。阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。该系列共10节直播课程,在阿里云官网、阿里云微信视频号、CSDN官网、阿里云钉钉视频号、阿里云开发者微信视频号同步播出,本次课程由战略合作媒体CSDN独家支持。

 

CloudOps云上运维系列课程第五节由阿里云弹性计算技术专家朱士松主讲《多云基础设施的统一纳管与运维实践》,点击下方链接进入【CloudOps云上运维】课程专题页即可观看课程回放,还可了解最新课程资讯。

 

CloudOps云上运维:https://developer.aliyun.com/topic/ecs-cloudops

 

以下内容根据朱士松的课程整理而成,供阅览:

 

据市场调查显示,企业出于安全、灵活、成本等多方面的综合考虑,希望可以使用不同的语音平台,利用其中的计算、存储和服务来运行自己企业的应用。其中一部分企业选择将公有云和私有云进行混合匹配,根据不同业务的特性,组合出最适合的运营方式以获得整体上的最佳效果。因此,混合云的使用范围会越来越广,并逐渐成为全球范围内企业用云的一种重要形态,但在使用混合云时,相较于使用单一的云,在管理和运维上复杂程度也成倍增长。

 

本节课将针对该问题介绍企业使用多云或混合运营后会遇到哪些新的挑战和问题以及怎样解决这些问题,并从以下四个方面展开:

 

∙        第一,在使用多云的场景下,企业组织遇到的新的挑战,分析这些新挑战形成背后的原因并推导出相应的解决方案,以及阿里云Ops积累的最佳实践;

∙        第二,介绍多云主机统一纳管的需求背景,如何完成多云主机的纳管,以及怎样实现灵活的资源管理和权限管理;

∙        第三,介绍多云主机统一运维的需求背景,以及如何利用云上现有的技术体系实现多云主题的统一运维、高效运维和安全运维;

∙        第四,介绍多云运维中一些比较复杂的问题和常见的场景,以及如何利用现有的阿里云技术体系实现多云主机的紧密协同工作。

1. 多云的发展和管理挑战

1)    使用多云的组织面临的挑战

多云和混合云已经成为企业组织用云的一种重要形态,一份专业机构发布的调查报告显示,在多数企业使用多云时都遇到了一些严峻的挑战。对于企业用户来说,排列在前四的问题有成本管理、多云管理、知识缺乏和安全管理。其中多云管理和知识缺乏并列第二,80%的企业认为多云管理是他们所面临的一项重要挑战。

 

image.png

2) 使用多云或混合云以后,企业技术遇到的新挑战

首先,从服务器运维的思想说起,企业组织用云的事项主要包括:资源的采购、网络的组建、资源的分配和资源的使用。

 

在资源使用上,计算、存储、网络等主要资源,以计算资源(即云服务器)的管理和使用,成为了运维工作的中心。云服务器的使用事项包含服务器的生命周期管理(即创建与释放),系统环境的初始化。最后,云服务器被用来部署和运行企业的应用,并且保持功能迭代的应用更新。

 

在应用运行期间,还需要持续对系统进行监控,采集数据以观测系统的健康状况。然后,根据监控所得到的数据,分析和修复服务问题,或者对应用进行扩容与缩容。

 

image.png

 

为了提升事项的处理效率,用户一般通过使用自动化的系统,进行相关的操作,而且多数云平台上,一般也提供有相应的服务。但是,在使用多云或混合云的新的使用场景下,传统的管理与运维方式会相对低效。

 

3) 使用多云或混合云以后,企业面临的新问题及背后的原因分析

首先,因为各家云平台都有各自的技术体系与管理门户,其只管理自家的云资源,会形成信息孤岛;

 

而且,作为多云的管理者与使用者,需在多家云平台,使用多个入口分别管理不同的云上资源,且不同的云平台提供的功能与服务虽然大体上有趋同的走向,但细节差异也很多,在使用这些系统时,需要注意它们的差异,这不仅需要花费漫长的时间,而且很容易因为知识不足或操作失误导致事故;

 

此外,不同的云平台提供的API接口与访问方式也各不相同,当企业因业务的需要将自家系统与云平台对接时,需要与每家云分别对接,使得开发难度增大,工作量增多,为企业用户带来沉重的负担;最后,即使克服了这种种困难,完成了多云的对接,还会发现在需要多云紧密协同时,例如一起执行某种任务、汇总监控数据时,九成需要把云平台已有的功能再重新开发一遍。

 

image.png

 

通过对背后原因的分析,可以得出一种针对性的解决办法,即避免同时对接多个云平台,而是选出一家云平台,把不同平台上的服务器集中在一起进行管理和运维。如果能完成该设想,那么在管理与使用多云和混合云时就可以像使用一家云一样简捷方便,从而大大减轻使用者和管理者的负担,也降低了部分风险。

2. 多云服务器的高效管理

在前面的统一运维设想中,需要现实的第一步是:将不同云平台下的主机,纳入到一家云平台上,统一进行管理与运维。下面继续分享在多云主机的统一纳管方面,阿里云CloudOps积累经验和推荐的最佳实践。

1) 多云服务器的统一纳管

通过刚才的分析,了解到用户的第一项诉求是:统一管理入口,消除信息孤岛。为了实现这个目的,可以使用阿里云的“托管实例”解决方案。

 

阿里云的托管实例是通过将非阿里云的主机安装阿里云云助手背景的程序,将不同云平台上的云服务器统一注册和托管的阿里云上,并且给予这些机器新的阿里云的身份标识。

 

同时,阿里云相关的运维类产品也都能够识别这个身份,并且为托管实例提供与ECS实例同等的服务能力。

 

将非阿里云的主机托管到阿里云上的前提条件和需要执行操作如下:

 

image.png

 

1)首先,根据该主机的网络条件,选择接入到阿里云的方式,接入方式有两大类:

 

①使用公网接入:主机可以直接访问公网,或通过代理服务器访问公网。

②使用专线接入:主机通过使用阿里云高速通道、VPN网关等方式实现与阿里云VPC的连接。

 

2)在确定接入方式之后,可以在ECS云助手控制台上,填写注册表单,生成注册脚本,把得到的脚本复制了目标机器上执行。

 

通过上述操作,就完成了云下主机到阿里云主机的托管。这时,可以在云助手控制台上看到托管实例,该主机会获得一个在阿里云的身份编制,并且可以在阿里云,使用多种免费的在线管理和运维服务。

2) 通过资源分组,实现高效管理

当托管实例的数据越来越多并达到一定的规模后,就需要有一种灵活的方式,标识出这些资源的关联信息,例如它们属于哪个业务部门?所属的地域是哪里?所属的生产环境是什么?可以被哪些人员使用?

 

只要能够标识出托管实例的各种关联信息,实现分组的查看和筛选。为了解决这两类问题,可以借助TAG标签管理系统,通过给资源打上各种标签,也就是用户自定义的键值对,实现资源的分类查看和分组管理。

 

image.png

 

例如,上图中有多个ECS实例和托管实例,分别于属于不同的部门、地域环境,在给资源打上相应的标签后,就可以按地域找到属于朝阳区的资源,或者按部门找到信息部的资源,或者按生产环境找到相应生产环境下的资源,或者多个条件同时使用,筛选出既属于信息部又属于生产环境的资源。通过给资源添加多种标签,不仅可以实现分组查看,而且可以灵活授权管理。

 

接下来学习如何通过TAG标签管理与RAM访问控制,高效地进行权限管理,为不同RAM用户,灵活分配的资源的访问权限。

3) 为不同的人员,配置相应的权限

前面的内容中,通过使用标签,介绍了如何实现对资源的灵活、多维度的分组管理、分组查看。那么,与用户相关的另一个常见问题是托管实例可以被哪些人员使用?怎样管理和分配使用权限?这里通过两个示例说明如何通过RAM的访问控制,实现灵活的资源权限管理。

 

1)示例一:按资源tag授权

 

如左图所示,在RAM权限策略描述脚本中,添加Condition StringEquals语句,而且指定acs:ResourceTag/team标签的值包含有CICD,这样被授予了该权限的用户,就可以访问和使用所有的拥有标签team=CICD的资源。

 

2)示例二:按实例ID授权

 

如右图所示,在RAM权限策略描述脚本中,给Resource列表添加两个托管实例ID。这样被授予了该权限的用户,就可以查看和操作这两个指定的托管实例。

 

image.png

  


更多精彩内容,欢迎观看:

带你读《云上自动化运维宝典》——多云基础设施的统一纳管与运维实践分享(2):https://developer.aliyun.com/article/1405373

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
18天前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
42 4
|
18天前
|
运维 监控 Devops
DevOps实践:自动化部署与持续集成的融合之旅
【10月更文挑战第7天】在软件开发领域,DevOps已成为一种文化和实践,它倡导开发(Dev)与运维(Ops)之间的协作与整合。本文将引导读者了解如何通过自动化部署和持续集成(CI)的实践来提升软件交付的速度和质量。我们将探讨一些实用的工具和技术,以及它们是如何帮助团队高效地管理代码变更、测试和部署的。文章将不包含代码示例,但会详细解释概念和流程,确保内容的通俗易懂和条理性。
124 62
|
1天前
|
监控 安全 jenkins
探索软件测试的奥秘:自动化测试框架的搭建与实践
【10月更文挑战第24天】在软件开发的海洋里,测试是确保航行安全的灯塔。本文将带领读者揭开软件测试的神秘面纱,深入探讨如何从零开始搭建一个自动化测试框架,并配以代码示例。我们将一起航行在自动化测试的浪潮之上,体验从理论到实践的转变,最终达到提高测试效率和质量的彼岸。
|
4天前
|
运维 应用服务中间件 持续交付
自动化运维的利器:Ansible入门与实践
【10月更文挑战第21天】在现代IT基础设施的管理中,自动化运维已成为提升效率、降低错误率的关键。Ansible,作为一种简单而强大的自动化工具,正被广泛应用于配置管理、应用部署和任务自动化等领域。本文将引导你了解Ansible的基本概念,通过实际案例展示如何利用Ansible简化日常运维工作,并探讨其在现代IT运维中的应用价值。无论你是新手还是有经验的系统管理员,这篇文章都将为你开启Ansible的高效之旅提供指导。
|
6天前
|
SQL Java 数据库
Spring Boot与Flyway:数据库版本控制的自动化实践
【10月更文挑战第19天】 在软件开发中,数据库的版本控制是一个至关重要的环节,它确保了数据库结构的一致性和项目的顺利迭代。Spring Boot结合Flyway提供了一种自动化的数据库版本控制解决方案,极大地简化了数据库迁移管理。本文将详细介绍如何使用Spring Boot和Flyway实现数据库版本的自动化控制。
9 2
|
7天前
|
Kubernetes 持续交付 Docker
探索DevOps实践:利用Docker与Kubernetes实现微服务架构的自动化部署
【10月更文挑战第18天】探索DevOps实践:利用Docker与Kubernetes实现微服务架构的自动化部署
36 2
|
18天前
|
运维 监控 Devops
DevOps实践:持续集成与部署的自动化之旅
【10月更文挑战第7天】在软件开发领域,DevOps已成为提升效率、加速交付和确保质量的关键策略。本文将深入探讨如何通过实施持续集成(CI)和持续部署(CD)来自动化开发流程,从而优化运维工作。我们将从基础概念入手,逐步过渡到实际操作,包括工具选择、流程设计以及监控和反馈机制的建立。最终,我们不仅会展示如何实现这一自动化流程,还会讨论如何克服常见的挑战,以确保成功实施。
55 9
|
16天前
|
运维 监控 测试技术
构建高效运维体系:从监控到自动化的实践之路
【10月更文挑战第9天】 在当今信息技术飞速发展的时代,运维作为保障系统稳定性与效率的关键角色,正面临前所未有的挑战。本文将探讨如何通过构建一个高效的运维体系来应对这些挑战,包括监控系统的搭建、自动化工具的应用以及故障应急处理机制的制定。我们将结合具体案例,分析这些措施如何帮助提升系统的可靠性和运维团队的工作效率。
34 1
|
18天前
|
运维 jenkins 持续交付
自动化部署的魅力:如何用Jenkins和Docker简化运维工作
【10月更文挑战第7天】在现代软件开发周期中,快速且高效的部署是至关重要的。本文将引导你理解如何使用Jenkins和Docker实现自动化部署,从而简化运维流程。我们将从基础概念开始,逐步深入到实战操作,让你轻松掌握这一强大的工具组合。通过这篇文章,你将学会如何利用这些工具来提升你的工作效率,并减少人为错误的可能性。
|
18天前
|
存储 运维 监控
高效运维管理:从基础架构优化到自动化实践
在当今数字化时代,高效运维管理已成为企业IT部门的重要任务。本文将探讨如何通过基础架构优化和自动化实践来提升运维效率,确保系统的稳定性和可靠性。我们将从服务器选型、存储优化、网络配置等方面入手,逐步引导读者了解运维管理的核心内容。同时,我们还将介绍自动化工具的使用,帮助运维人员提高工作效率,降低人为错误的发生。通过本文的学习,您将掌握高效运维管理的关键技巧,为企业的发展提供有力支持。

热门文章

最新文章