带你读《云上自动化运维宝典》——多云基础设施的统一纳管与运维实践分享(1)

本文涉及的产品
云服务器 ECS,u1 2核4GB 3个月
云服务器 ECS,u1 4核8GB 1个月
云服务器 ECS,每月免费额度200元 3个月
简介: 带你读《云上自动化运维宝典》——多云基础设施的统一纳管与运维实践分享(1)

为了更好地帮助用户在借助DevOps工具缩短开发周期、提升业务效率的同时,也能让业务保持稳定、安全、可靠,且低成本地持续运营,阿里云弹性计算团队独家出品的【弹性计算技术公开课_CloudOps云上运维季】正式启动。阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。该系列共10节直播课程,在阿里云官网、阿里云微信视频号、CSDN官网、阿里云钉钉视频号、阿里云开发者微信视频号同步播出,本次课程由战略合作媒体CSDN独家支持。

 

CloudOps云上运维系列课程第五节由阿里云弹性计算技术专家朱士松主讲《多云基础设施的统一纳管与运维实践》,点击下方链接进入【CloudOps云上运维】课程专题页即可观看课程回放,还可了解最新课程资讯。

 

CloudOps云上运维:https://developer.aliyun.com/topic/ecs-cloudops

 

以下内容根据朱士松的课程整理而成,供阅览:

 

据市场调查显示,企业出于安全、灵活、成本等多方面的综合考虑,希望可以使用不同的语音平台,利用其中的计算、存储和服务来运行自己企业的应用。其中一部分企业选择将公有云和私有云进行混合匹配,根据不同业务的特性,组合出最适合的运营方式以获得整体上的最佳效果。因此,混合云的使用范围会越来越广,并逐渐成为全球范围内企业用云的一种重要形态,但在使用混合云时,相较于使用单一的云,在管理和运维上复杂程度也成倍增长。

 

本节课将针对该问题介绍企业使用多云或混合运营后会遇到哪些新的挑战和问题以及怎样解决这些问题,并从以下四个方面展开:

 

∙        第一,在使用多云的场景下,企业组织遇到的新的挑战,分析这些新挑战形成背后的原因并推导出相应的解决方案,以及阿里云Ops积累的最佳实践;

∙        第二,介绍多云主机统一纳管的需求背景,如何完成多云主机的纳管,以及怎样实现灵活的资源管理和权限管理;

∙        第三,介绍多云主机统一运维的需求背景,以及如何利用云上现有的技术体系实现多云主题的统一运维、高效运维和安全运维;

∙        第四,介绍多云运维中一些比较复杂的问题和常见的场景,以及如何利用现有的阿里云技术体系实现多云主机的紧密协同工作。

1. 多云的发展和管理挑战

1)    使用多云的组织面临的挑战

多云和混合云已经成为企业组织用云的一种重要形态,一份专业机构发布的调查报告显示,在多数企业使用多云时都遇到了一些严峻的挑战。对于企业用户来说,排列在前四的问题有成本管理、多云管理、知识缺乏和安全管理。其中多云管理和知识缺乏并列第二,80%的企业认为多云管理是他们所面临的一项重要挑战。

 

image.png

2) 使用多云或混合云以后,企业技术遇到的新挑战

首先,从服务器运维的思想说起,企业组织用云的事项主要包括:资源的采购、网络的组建、资源的分配和资源的使用。

 

在资源使用上,计算、存储、网络等主要资源,以计算资源(即云服务器)的管理和使用,成为了运维工作的中心。云服务器的使用事项包含服务器的生命周期管理(即创建与释放),系统环境的初始化。最后,云服务器被用来部署和运行企业的应用,并且保持功能迭代的应用更新。

 

在应用运行期间,还需要持续对系统进行监控,采集数据以观测系统的健康状况。然后,根据监控所得到的数据,分析和修复服务问题,或者对应用进行扩容与缩容。

 

image.png

 

为了提升事项的处理效率,用户一般通过使用自动化的系统,进行相关的操作,而且多数云平台上,一般也提供有相应的服务。但是,在使用多云或混合云的新的使用场景下,传统的管理与运维方式会相对低效。

 

3) 使用多云或混合云以后,企业面临的新问题及背后的原因分析

首先,因为各家云平台都有各自的技术体系与管理门户,其只管理自家的云资源,会形成信息孤岛;

 

而且,作为多云的管理者与使用者,需在多家云平台,使用多个入口分别管理不同的云上资源,且不同的云平台提供的功能与服务虽然大体上有趋同的走向,但细节差异也很多,在使用这些系统时,需要注意它们的差异,这不仅需要花费漫长的时间,而且很容易因为知识不足或操作失误导致事故;

 

此外,不同的云平台提供的API接口与访问方式也各不相同,当企业因业务的需要将自家系统与云平台对接时,需要与每家云分别对接,使得开发难度增大,工作量增多,为企业用户带来沉重的负担;最后,即使克服了这种种困难,完成了多云的对接,还会发现在需要多云紧密协同时,例如一起执行某种任务、汇总监控数据时,九成需要把云平台已有的功能再重新开发一遍。

 

image.png

 

通过对背后原因的分析,可以得出一种针对性的解决办法,即避免同时对接多个云平台,而是选出一家云平台,把不同平台上的服务器集中在一起进行管理和运维。如果能完成该设想,那么在管理与使用多云和混合云时就可以像使用一家云一样简捷方便,从而大大减轻使用者和管理者的负担,也降低了部分风险。

2. 多云服务器的高效管理

在前面的统一运维设想中,需要现实的第一步是:将不同云平台下的主机,纳入到一家云平台上,统一进行管理与运维。下面继续分享在多云主机的统一纳管方面,阿里云CloudOps积累经验和推荐的最佳实践。

1) 多云服务器的统一纳管

通过刚才的分析,了解到用户的第一项诉求是:统一管理入口,消除信息孤岛。为了实现这个目的,可以使用阿里云的“托管实例”解决方案。

 

阿里云的托管实例是通过将非阿里云的主机安装阿里云云助手背景的程序,将不同云平台上的云服务器统一注册和托管的阿里云上,并且给予这些机器新的阿里云的身份标识。

 

同时,阿里云相关的运维类产品也都能够识别这个身份,并且为托管实例提供与ECS实例同等的服务能力。

 

将非阿里云的主机托管到阿里云上的前提条件和需要执行操作如下:

 

image.png

 

1)首先,根据该主机的网络条件,选择接入到阿里云的方式,接入方式有两大类:

 

①使用公网接入:主机可以直接访问公网,或通过代理服务器访问公网。

②使用专线接入:主机通过使用阿里云高速通道、VPN网关等方式实现与阿里云VPC的连接。

 

2)在确定接入方式之后,可以在ECS云助手控制台上,填写注册表单,生成注册脚本,把得到的脚本复制了目标机器上执行。

 

通过上述操作,就完成了云下主机到阿里云主机的托管。这时,可以在云助手控制台上看到托管实例,该主机会获得一个在阿里云的身份编制,并且可以在阿里云,使用多种免费的在线管理和运维服务。

2) 通过资源分组,实现高效管理

当托管实例的数据越来越多并达到一定的规模后,就需要有一种灵活的方式,标识出这些资源的关联信息,例如它们属于哪个业务部门?所属的地域是哪里?所属的生产环境是什么?可以被哪些人员使用?

 

只要能够标识出托管实例的各种关联信息,实现分组的查看和筛选。为了解决这两类问题,可以借助TAG标签管理系统,通过给资源打上各种标签,也就是用户自定义的键值对,实现资源的分类查看和分组管理。

 

image.png

 

例如,上图中有多个ECS实例和托管实例,分别于属于不同的部门、地域环境,在给资源打上相应的标签后,就可以按地域找到属于朝阳区的资源,或者按部门找到信息部的资源,或者按生产环境找到相应生产环境下的资源,或者多个条件同时使用,筛选出既属于信息部又属于生产环境的资源。通过给资源添加多种标签,不仅可以实现分组查看,而且可以灵活授权管理。

 

接下来学习如何通过TAG标签管理与RAM访问控制,高效地进行权限管理,为不同RAM用户,灵活分配的资源的访问权限。

3) 为不同的人员,配置相应的权限

前面的内容中,通过使用标签,介绍了如何实现对资源的灵活、多维度的分组管理、分组查看。那么,与用户相关的另一个常见问题是托管实例可以被哪些人员使用?怎样管理和分配使用权限?这里通过两个示例说明如何通过RAM的访问控制,实现灵活的资源权限管理。

 

1)示例一:按资源tag授权

 

如左图所示,在RAM权限策略描述脚本中,添加Condition StringEquals语句,而且指定acs:ResourceTag/team标签的值包含有CICD,这样被授予了该权限的用户,就可以访问和使用所有的拥有标签team=CICD的资源。

 

2)示例二:按实例ID授权

 

如右图所示,在RAM权限策略描述脚本中,给Resource列表添加两个托管实例ID。这样被授予了该权限的用户,就可以查看和操作这两个指定的托管实例。

 

image.png

  


更多精彩内容,欢迎观看:

带你读《云上自动化运维宝典》——多云基础设施的统一纳管与运维实践分享(2):https://developer.aliyun.com/article/1405373

相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
4天前
|
存储 人工智能 运维
自动化运维工具链的搭建与实践
【6月更文挑战第26天】在当今快速迭代的技术环境下,自动化运维成为保障服务稳定性和提升工作效率的重要手段。本文将深入探讨如何搭建一套高效的自动化运维工具链,包括工具选择、配置管理、持续集成与部署等关键环节,并分享实践中的经验教训。通过实例分析,本文旨在为读者提供一条清晰的自动化运维实施路径,助力企业快速适应市场变化,提升竞争力。
13 4
|
1天前
|
运维 Kubernetes 安全
自动化运维在现代IT架构中的角色与实践
【6月更文挑战第28天】随着企业对信息技术的依赖日益加深,高效、可靠的运维体系变得至关重要。本文将探讨自动化运维如何优化现代IT架构,提升运维效率和系统稳定性。我们将从实际案例出发,分析自动化工具的选择、部署策略以及面临的挑战,为读者提供一套可行的自动化运维解决方案。
|
6天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI在IT基础设施管理中的应用
【6月更文挑战第24天】本文将深入探讨人工智能(AI)如何革新传统IT运维模式,提升效率与响应速度。通过分析AI技术在故障预测、自动化处理和安全防护等方面的应用实例,揭示其对现代IT基础设施管理的深远影响。文章旨在为读者提供一个关于AI赋能运维领域的全面视角,同时指出实施过程中可能遇到的挑战与对策。
31 5
|
10天前
|
机器学习/深度学习 数据采集 运维
智能化运维:利用机器学习优化IT基础设施管理
在数字化时代的浪潮中,企业对IT运维的要求日益提高,传统的管理模式已难以满足快速发展的需求。本文探讨了如何通过集成机器学习技术来提升IT基础设施管理的智能化水平,旨在帮助运维团队高效应对复杂挑战,保障系统的高可用性和性能。文章首先分析了当前运维面临的主要问题,随后详细介绍了机器学习在故障预测、自动化处理和安全防护方面的应用案例,并讨论了实施智能运维时可能遇到的挑战及解决策略。最终,文章强调了持续学习和适应的重要性,以及智能运维在未来IT发展中的关键作用。
|
11天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维的探索与实践:AI在IT运维中的应用
【6月更文挑战第19天】随着人工智能技术的不断成熟,其在IT运维领域的应用也愈发深入。本文将探讨AI技术如何赋能传统IT运维,提升效率和响应速度,实现故障预测、自动化处理及优化决策。通过分析AI在运维中的实际应用案例,我们能更好地了解其潜力与挑战,并预见未来智能化运维的发展路径。
225 6
|
8天前
|
机器学习/深度学习 人工智能 运维
智能化运维的探索与实践
【6月更文挑战第21天】本文旨在探讨智能化运维在现代IT管理中的应用和挑战,通过分析智能化技术如何赋能传统运维流程,揭示其在提升效率、降低成本方面的潜力。文章将结合具体案例,阐述智能化运维的实施路径和面临的主要问题,为读者提供一套可行的智能化运维解决方案框架。
|
9天前
|
运维 监控 Devops
基础设施即代码(IaC):自动化运维的新纪元
【6月更文挑战第21天】基础设施即代码(IaC)是将基础设施配置转为代码,实现自动化和标准化运维的实践。它通过文本文件描述基础设施,保证重复性、一致性和自动化部署。IaC提升效率,降低成本,加速产品上市,增强安全性和可移植性,在配置管理、环境管理、CI/CD及监控告警中发挥关键作用,推动DevOps和云时代的创新。
|
2天前
|
机器学习/深度学习 运维 监控
智能化运维:利用机器学习优化IT基础设施管理
随着信息技术的飞速发展,企业和组织越来越依赖于高效、可靠的IT基础设施。然而,传统的运维方法往往无法满足现代业务需求的速度和规模。本文将探讨如何通过机器学习技术来优化IT基础设施的管理,提高运维效率,降低风险,并确保系统的高可用性。我们将分析机器学习在自动化故障检测、预测性维护、资源分配和安全监控方面的应用,以及这些技术如何帮助运维团队更好地理解和优化他们的IT环境。
|
2天前
|
机器学习/深度学习 运维 监控
智能化运维:利用机器学习优化IT基础设施管理
在信息技术飞速发展的今天,企业面临着日益增长的运维压力。传统的运维模式已难以满足现代IT基础设施的管理需求。本文将探讨如何通过机器学习技术提升运维效率,实现智能化运维。我们将分析机器学习在故障预测、自动化处理和性能优化方面的应用,并结合具体案例,展示其在提高系统稳定性和降低运营成本方面的实际成效。最后,文章将讨论实施智能化运维时可能遇到的挑战及应对策略。
5 0
|
12天前
|
人工智能 运维 大数据
现代化运维管理实践与挑战
在当今快速发展的科技领域,现代化运维管理已成为企业发展中不可或缺的一环。本文将探讨现代化运维管理的重要性,以及在实践中所面临的挑战和应对方法,旨在帮助读者更好地理解和应用运维管理的最佳实践。
11 0