带你读《云上自动化运维宝典》——多云基础设施的统一纳管与运维实践分享(1)

简介: 带你读《云上自动化运维宝典》——多云基础设施的统一纳管与运维实践分享(1)

为了更好地帮助用户在借助DevOps工具缩短开发周期、提升业务效率的同时,也能让业务保持稳定、安全、可靠,且低成本地持续运营,阿里云弹性计算团队独家出品的【弹性计算技术公开课_CloudOps云上运维季】正式启动。阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。该系列共10节直播课程,在阿里云官网、阿里云微信视频号、CSDN官网、阿里云钉钉视频号、阿里云开发者微信视频号同步播出,本次课程由战略合作媒体CSDN独家支持。

 

CloudOps云上运维系列课程第五节由阿里云弹性计算技术专家朱士松主讲《多云基础设施的统一纳管与运维实践》,点击下方链接进入【CloudOps云上运维】课程专题页即可观看课程回放,还可了解最新课程资讯。

 

CloudOps云上运维:https://developer.aliyun.com/topic/ecs-cloudops

 

以下内容根据朱士松的课程整理而成,供阅览:

 

据市场调查显示,企业出于安全、灵活、成本等多方面的综合考虑,希望可以使用不同的语音平台,利用其中的计算、存储和服务来运行自己企业的应用。其中一部分企业选择将公有云和私有云进行混合匹配,根据不同业务的特性,组合出最适合的运营方式以获得整体上的最佳效果。因此,混合云的使用范围会越来越广,并逐渐成为全球范围内企业用云的一种重要形态,但在使用混合云时,相较于使用单一的云,在管理和运维上复杂程度也成倍增长。

 

本节课将针对该问题介绍企业使用多云或混合运营后会遇到哪些新的挑战和问题以及怎样解决这些问题,并从以下四个方面展开:

 

∙        第一,在使用多云的场景下,企业组织遇到的新的挑战,分析这些新挑战形成背后的原因并推导出相应的解决方案,以及阿里云Ops积累的最佳实践;

∙        第二,介绍多云主机统一纳管的需求背景,如何完成多云主机的纳管,以及怎样实现灵活的资源管理和权限管理;

∙        第三,介绍多云主机统一运维的需求背景,以及如何利用云上现有的技术体系实现多云主题的统一运维、高效运维和安全运维;

∙        第四,介绍多云运维中一些比较复杂的问题和常见的场景,以及如何利用现有的阿里云技术体系实现多云主机的紧密协同工作。

1. 多云的发展和管理挑战

1)    使用多云的组织面临的挑战

多云和混合云已经成为企业组织用云的一种重要形态,一份专业机构发布的调查报告显示,在多数企业使用多云时都遇到了一些严峻的挑战。对于企业用户来说,排列在前四的问题有成本管理、多云管理、知识缺乏和安全管理。其中多云管理和知识缺乏并列第二,80%的企业认为多云管理是他们所面临的一项重要挑战。

 

image.png

2) 使用多云或混合云以后,企业技术遇到的新挑战

首先,从服务器运维的思想说起,企业组织用云的事项主要包括:资源的采购、网络的组建、资源的分配和资源的使用。

 

在资源使用上,计算、存储、网络等主要资源,以计算资源(即云服务器)的管理和使用,成为了运维工作的中心。云服务器的使用事项包含服务器的生命周期管理(即创建与释放),系统环境的初始化。最后,云服务器被用来部署和运行企业的应用,并且保持功能迭代的应用更新。

 

在应用运行期间,还需要持续对系统进行监控,采集数据以观测系统的健康状况。然后,根据监控所得到的数据,分析和修复服务问题,或者对应用进行扩容与缩容。

 

image.png

 

为了提升事项的处理效率,用户一般通过使用自动化的系统,进行相关的操作,而且多数云平台上,一般也提供有相应的服务。但是,在使用多云或混合云的新的使用场景下,传统的管理与运维方式会相对低效。

 

3) 使用多云或混合云以后,企业面临的新问题及背后的原因分析

首先,因为各家云平台都有各自的技术体系与管理门户,其只管理自家的云资源,会形成信息孤岛;

 

而且,作为多云的管理者与使用者,需在多家云平台,使用多个入口分别管理不同的云上资源,且不同的云平台提供的功能与服务虽然大体上有趋同的走向,但细节差异也很多,在使用这些系统时,需要注意它们的差异,这不仅需要花费漫长的时间,而且很容易因为知识不足或操作失误导致事故;

 

此外,不同的云平台提供的API接口与访问方式也各不相同,当企业因业务的需要将自家系统与云平台对接时,需要与每家云分别对接,使得开发难度增大,工作量增多,为企业用户带来沉重的负担;最后,即使克服了这种种困难,完成了多云的对接,还会发现在需要多云紧密协同时,例如一起执行某种任务、汇总监控数据时,九成需要把云平台已有的功能再重新开发一遍。

 

image.png

 

通过对背后原因的分析,可以得出一种针对性的解决办法,即避免同时对接多个云平台,而是选出一家云平台,把不同平台上的服务器集中在一起进行管理和运维。如果能完成该设想,那么在管理与使用多云和混合云时就可以像使用一家云一样简捷方便,从而大大减轻使用者和管理者的负担,也降低了部分风险。

2. 多云服务器的高效管理

在前面的统一运维设想中,需要现实的第一步是:将不同云平台下的主机,纳入到一家云平台上,统一进行管理与运维。下面继续分享在多云主机的统一纳管方面,阿里云CloudOps积累经验和推荐的最佳实践。

1) 多云服务器的统一纳管

通过刚才的分析,了解到用户的第一项诉求是:统一管理入口,消除信息孤岛。为了实现这个目的,可以使用阿里云的“托管实例”解决方案。

 

阿里云的托管实例是通过将非阿里云的主机安装阿里云云助手背景的程序,将不同云平台上的云服务器统一注册和托管的阿里云上,并且给予这些机器新的阿里云的身份标识。

 

同时,阿里云相关的运维类产品也都能够识别这个身份,并且为托管实例提供与ECS实例同等的服务能力。

 

将非阿里云的主机托管到阿里云上的前提条件和需要执行操作如下:

 

image.png

 

1)首先,根据该主机的网络条件,选择接入到阿里云的方式,接入方式有两大类:

 

①使用公网接入:主机可以直接访问公网,或通过代理服务器访问公网。

②使用专线接入:主机通过使用阿里云高速通道、VPN网关等方式实现与阿里云VPC的连接。

 

2)在确定接入方式之后,可以在ECS云助手控制台上,填写注册表单,生成注册脚本,把得到的脚本复制了目标机器上执行。

 

通过上述操作,就完成了云下主机到阿里云主机的托管。这时,可以在云助手控制台上看到托管实例,该主机会获得一个在阿里云的身份编制,并且可以在阿里云,使用多种免费的在线管理和运维服务。

2) 通过资源分组,实现高效管理

当托管实例的数据越来越多并达到一定的规模后,就需要有一种灵活的方式,标识出这些资源的关联信息,例如它们属于哪个业务部门?所属的地域是哪里?所属的生产环境是什么?可以被哪些人员使用?

 

只要能够标识出托管实例的各种关联信息,实现分组的查看和筛选。为了解决这两类问题,可以借助TAG标签管理系统,通过给资源打上各种标签,也就是用户自定义的键值对,实现资源的分类查看和分组管理。

 

image.png

 

例如,上图中有多个ECS实例和托管实例,分别于属于不同的部门、地域环境,在给资源打上相应的标签后,就可以按地域找到属于朝阳区的资源,或者按部门找到信息部的资源,或者按生产环境找到相应生产环境下的资源,或者多个条件同时使用,筛选出既属于信息部又属于生产环境的资源。通过给资源添加多种标签,不仅可以实现分组查看,而且可以灵活授权管理。

 

接下来学习如何通过TAG标签管理与RAM访问控制,高效地进行权限管理,为不同RAM用户,灵活分配的资源的访问权限。

3) 为不同的人员,配置相应的权限

前面的内容中,通过使用标签,介绍了如何实现对资源的灵活、多维度的分组管理、分组查看。那么,与用户相关的另一个常见问题是托管实例可以被哪些人员使用?怎样管理和分配使用权限?这里通过两个示例说明如何通过RAM的访问控制,实现灵活的资源权限管理。

 

1)示例一:按资源tag授权

 

如左图所示,在RAM权限策略描述脚本中,添加Condition StringEquals语句,而且指定acs:ResourceTag/team标签的值包含有CICD,这样被授予了该权限的用户,就可以访问和使用所有的拥有标签team=CICD的资源。

 

2)示例二:按实例ID授权

 

如右图所示,在RAM权限策略描述脚本中,给Resource列表添加两个托管实例ID。这样被授予了该权限的用户,就可以查看和操作这两个指定的托管实例。

 

image.png

  


更多精彩内容,欢迎观看:

带你读《云上自动化运维宝典》——多云基础设施的统一纳管与运维实践分享(2):https://developer.aliyun.com/article/1405373

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
63 4
|
18天前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
18天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
40 1
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在现代IT基础设施中的应用与价值####
本文探讨了智能化运维(AIOps)在现代IT基础设施管理中的实际应用、面临的挑战及其带来的深远影响。通过引入先进的算法和机器学习模型,智能化运维不仅提高了故障检测与响应的速度,还显著优化了资源配置,降低了运营成本,为企业数字化转型提供了强有力的技术支撑。 ####
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
1月前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
58 4
|
2月前
|
运维 jenkins 持续交付
自动化部署的魅力:如何用Jenkins和Docker简化运维工作
【10月更文挑战第7天】在现代软件开发周期中,快速且高效的部署是至关重要的。本文将引导你理解如何使用Jenkins和Docker实现自动化部署,从而简化运维流程。我们将从基础概念开始,逐步深入到实战操作,让你轻松掌握这一强大的工具组合。通过这篇文章,你将学会如何利用这些工具来提升你的工作效率,并减少人为错误的可能性。
|
2月前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的全面指南在当今数字化时代,运维作为保障系统稳定性和效率的重要环节,其重要性不言而喻。本文将深入探讨如何构建一个高效的运维体系,从监控系统的搭建到自动化运维的实施,旨在为读者提供一套完整的解决方案。
本文详细介绍了高效运维体系的构建过程,包括监控系统的选择与部署、日志分析的方法、性能优化的策略以及自动化运维工具的应用。通过对这些关键环节的深入剖析,帮助运维人员提升系统的可靠性和响应速度,降低人工干预成本,实现业务的快速发展和稳定运行。
|
2月前
|
运维 Prometheus 监控
运维中的自动化实践每月一次的系统维护曾经是许多企业的噩梦。不仅因为停机时间长,更因为手动操作容易出错。然而,随着自动化工具的引入,这一切正在悄然改变。本文将探讨自动化在IT运维中的重要性及其具体应用。
在当今信息技术飞速发展的时代,企业对系统的稳定性和效率要求越来越高。传统的手动运维方式已经无法满足现代企业的需求。自动化技术的引入不仅提高了运维效率,还显著降低了出错风险。本文通过几个实际案例,展示了自动化在IT运维中的具体应用,包括自动化部署、监控告警和故障排除等方面,旨在为读者提供一些实用的参考。
|
1月前
|
人工智能 运维 监控
运维技术深度解析:构建高效、稳定的IT基础设施
【10月更文挑战第22天】运维技术深度解析:构建高效、稳定的IT基础设施
67 0