ECS主动运维专栏(2):在阿里云上建立主动的云上运维体系

简介: 上文我们提到,云上运维向更自动、更敏捷、更弹性的趋势演进,但本质始终是赋能业务永续运行,助力企业战略目标和业务发展的实现。今天,我们来聊一聊如何在阿里云上建立主动的云上运维体系。为何强调“主动”,古人云,善战者无赫赫之功,不打无准备之仗才最有可能利于不败之地,这便是我们强调“主动”运维的意义。

上文我们提到,云上运维向更自动、更敏捷、更弹性的趋势演进,但本质始终是赋能业务永续运行,助力企业战略目标和业务发展的实现。今天,我们来聊一聊如何在阿里云上建立主动的云上运维体系。

为何强调“主动”?做过或者接触过运维的朋友们或许对“背锅”和“救火”这两个词都不陌生——我们知道,故障几乎无法完全避免,当故障发生时,如果系统和业务受到了严重影响,可能有些人要为此无奈“背锅”,也可能有些人挺身而出成为“救火”英雄,挽狂澜于既倒,让系统和业务转危为安。但如果总是在故障发生时才靠运维人员来解决问题,那么无论结果如何,都未免太被动了。古人云,善战者无赫赫之功,不打无准备之仗才最有可能利于不败之地,这便是我们强调“主动”运维的意义。

阿里云作为领先和值得信赖的云计算服务提供商,提供和保障计算、存储、网络资源以及底层基础设施的可用性、稳定性、安全性。企业用户根据自身战略发展和业务需求设计IT架构,在阿里云上选择合适的产品、服务来搭建部署业务系统,并管理其中的数据。在此基础上,通过阿里云提供的OpenAPI、监控、编排等多样化手段实现快速配置资源,搭建高可用架构,自动化批量部署,弹性应对负载变化,闭环管理异常故障等IT主动运维能力。

也就是说,用户在阿里云之上所搭建的系统和所承载的业务,其系统可用性和业务连续性是由阿里云和用户共同保障的——阿里云搭建强健的基础设施环境和开展大规模主动运维,为用户提供可信赖的ECS云服务,作为支撑用户系统和业务的稳定性基石;而利用阿里云ECS丰富的运维能力,用户可以从架构设计开始便做充分的准备,并将主动运维的思想贯穿于规划部署、容量管理、测试发布、日常运维等多个基础运维环节,并与应用开发和运维紧密协作,形成主动运维体系,最终实现业务永续运行的目的。

image

下面,我们来了解下阿里云提供给用户的稳定性基石——弹性计算服务ECS云服务器

ECS云服务器的优势

弹性计算服务Elastic Compute Service(ECS)是阿里云提供的一种基础云计算服务。使用ECS云服务器就像使用水、电、煤气等资源一样便捷、高效。您无需提前采购硬件设备,而是根据业务需要,随时创建所需数量的ECS云服务器实例。在使用过程中,随着业务的扩展,您可以随时扩展节点、变更规格、扩容磁盘、增加带宽。如果不再需要云服务器时,也能随时释放资源,节省费用。

与传统IDC对比,ECS具备以下优势:

ECS云服务器 传统IDC服务器
基础设施 - 自主研发的直流电服务器,绿色机房设计,PUE 低;
- 骨干机房,出口带宽大,独享带宽;
- BGP多线机房,全国访问流畅均衡
- 传统交流电服务器设计,
- PUE 高;
- 机房质量参差不齐,用户选择困难,以共享带宽为主;
- 以单线和双线为主
安全可靠 - 有效阻止 MAC 欺骗和 ARP 攻击;
- 有效防护 DDoS 攻击,可进行流量清洗和黑洞;
- 端口入侵扫描、挂马扫描、漏洞扫描等附加服务
- 很难阻止 MAC 欺骗和 ARP 攻击;
- 清洗和黑洞设备需要另外购买,价格昂贵;
- 普遍存在漏洞挂马和端口扫描等问题
备份容灾 - 多份数据副本,单份损坏可在短时间内快速恢复;
- 用户自定义快照;
- 快速自动故障恢复
- 用户自行搭建,使用传统存储设备,价格高昂;
- 数据损坏需用户自己修复;
- 没有提供快照功能,无法做到自动故障恢复
灵活扩展 - 开通云服务器非常灵活,可以在线升级配置;
- 带宽升降自由;
- 横向伸缩,轻松扩展应用
- 服务器交付周期长,离线升级配置;
- 带宽一次性购买,无法自由升降;
- 硬件节点部署慢,价格昂贵

ECS云服务器不同于物理服务器,它是由计算、存储、网络组件聚合而成的IaaS层解决方案。ECS云服务器由以下几部分组成:

实例

一个云服务器 ECS 实例等同于一台虚拟机,包含 CPU、内存、操作系统、网络、磁盘等最基础的计算组件。您可以方便的定制、更改实例的配置。您对该虚拟机拥有完全的控制权,和您本地服务器的区别在于,您只需要登录到阿里云,即可使用云服务器,进行独立的管理、顶级配置等操作。

磁盘(块存储)

阿里云为您的云服务器ECS提供了丰富的块存储产品类型,包括基于分布式存储架构的弹性块存储产品,以及基于物理机本地硬盘的本地存储产品。其中:

弹性块存储,也称为云盘,是阿里云为云服务器ECS提供的数据块级别的随机存储,具有低时延、持久性、高可靠等性能,采用三副本的分布式机制,为ECS实例提供99.9999999%的数据可靠性保证。可以随时创建或释放,也可以随时扩容。

本地存储,也称为本地盘,是指挂载在ECS云服务器所在物理机(宿主机)上的本地硬盘,是一种临时块存储。是专为对存储I/O性能有极高要求的业务场景而设计的存储产品。该类存储为实例提供块级别的数据访问能力,具有低时延、高随机IOPS、高吞吐量的I/O能力。

网络,VPC,安全组

专有网络(Virtual Private Cloud,简称为VPC)是您基于阿里云构建的一个隔离的网络环境,专有网络之间逻辑上彻底隔离。您可以自定义这个专有网络的拓扑和 IP 地址,适用于对网络安全性要求较高和有一定网络管理能力的用户。

快照

快照,是某一个时间点上某一个磁盘的数据备份。快照服务可以满足您以下需求:

  • 您希望使用某块磁盘上的数据作为其他磁盘的基础数据。您可以使用快照创建磁盘。
  • 当磁盘上的数据出现问题时,您希望能够恢复到您所期望的数据状态。您可以 使用快照回滚磁盘。比如:尽管云盘(普通云盘、高效云盘和SSD云盘)是一种安全的存储方式,可以保证您所存储的任何内容都不会丢失,但是,如果存储在磁盘上的数据本身就是错误的数据,比如由于应用错误导致的数据错误,或者黑客利用您的应用漏洞进行恶意读写,此时,您就可以使用快照服务将磁盘上的数据恢复到您期望的状态。
  • 如果您希望新购的实例与已有的实例有完全相同的环境,您可以使用系统盘快照创建自定义镜像,再使用自定义镜像创建实例。

镜像

镜像(Image)是云服务器ECS实例运行环境的模板,模板中包括了特定的操作系统信息,有时也额外包括了一些预装的应用程序。镜像文件相当于副本文件,该副本文件包含了一个或多个磁盘中的所有数据,对于云服务器ECS而言,这些磁盘可以是单个系统盘,也可以是系统盘加数据盘的组合。

ECS云服务器对于可用性的承诺

如何来评价ECS云服务器是否称得上“稳定性基石”呢,我们需要一个可以测量的标准,最合适的莫过于ECS云服务器的服务可用性等级协议SLA(Service Level Agreement)了。

首先,我们需要了解一些与SLA有关的定义:

  • 服务周期:一个服务周期为一个自然月。
  • 单实例服务周期总分钟数:按照单实例服务周期内的总天数╳24(小时)╳60(分钟)计算。
  • 实例不可用:当一台设置了出入允许规则的ECS实例以TCP或者UDP协议与任一IP地址的双向(出/入)都无法联通,且该状态持续一分钟以上,视为该分钟内ECS实例不可用。
  • 单实例服务不可用分钟数: 在一个服务周期内单ECS实例不可用分钟数之和。
  • 单地域多可用区服务不可用:如用户ECS实例在同一地域部署于至少2个可用区(以下简称:单地域多可用区),若该地域任一可用区发生该用户的全部 ECS 实例不可用,且该用户在该地域其他可用区的ECS实例亦同时发生实例不可用(以下简称:同地域其他可用区不可用ECS实例),则此同地域其他可用区不可用ECS实例被视为单地域多可用区服务不可用。
  • 单实例单地域多可用区服务不可用分钟数:在一个服务周期内,单ECS实例的单地域多可用区服务不可用的分钟数之和。

ECS的服务可用性将根据服务周期,按如下两种维度分别统计每台ECS实例的可用性:

  • 单实例维度
    服务可用性=(单实例服务周期总分钟数 -单实例服务不可用分钟数)/单实例服务周期总分钟数×100%
  • 单地域多可用区维度
    服务可用性=(单实例服务周期总分钟数 -单实例单地域多可用区服务不可用分钟数)/单实例服务周期总分钟数×100%

阿里云郑重承诺服务可用性:

  • 对于单实例维度,阿里云承诺一个服务周期内ECS的服务可用性不低于99.95%;
  • 对于单地域多可用区维度,阿里云承诺一个服务周期内ECS的服务可用性不低于99.99%。

ECS云服务器的SLA标准就如同高可用性的标尺,用户可以根据业务需要和成本考量,来设定合理的可用性目标,并选择合适的架构。

运维边界综述

综上所述,在IaaS服务层面,基于阿里云ECS云服务器的云上运维边界可以总结为:

阿里云 用户
数据中心 - 选址,设计,建设;
风火水电等基础工程管理;
- 互联网、专线接入;
- 日常运营、故障处理、扩容
根据业务需求选择适合的地域和可用区
实例 - 宿主服务器上架初始化,更新替换;
- 宿主服务器操作系统安装,配置,补丁管理;
- 虚拟化配置,管理;
- 系统监控,服务可用性保障;
- 提供多种操作系统版本和预装特定应用程序的镜像模板
- 根据业务需求设计系统架构,并选择实例规格和配置;
- 管理云上资源,灵活使用负载均衡和弹性伸缩等服务快速相应业务变化;
- 根据实例监控、健康检查和系统事件触发运维动作
硬盘(块存储) - 存储上架初始化,更新替换;存储、磁盘配置,数据多副本设计提供可靠性保障;
- 系统监控,服务可用性保障;
- 提供磁盘快照和自定义快照策略的功能

- 根据容量、性能等要求选择磁盘类型和规格;
- 使用磁盘快照进行数据备份
网络,VPC,安全组 - 网络设备上架、布线、初始化,更新替换;
- 网络SDN、虚拟化配置;
- 系统监控,服务可用性保障;
- 安全防护
配置并管理VPC和安全组

在阿里云ECS所提供的稳定性基石之上,用户就可以利用ECS的运维能力来构建适合自己的主动运维体系。从个人用户到中小企业再到大型企业,用户的诉求可以抽象总结为对开放弹性透明的不断追求。下一期,我们继续展开聊聊ECS提供给用户的主动运维能力。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
4天前
|
人工智能 JSON Linux
利用阿里云GPU加速服务器实现pdf转换为markdown格式
随着AI模型的发展,GPU需求日益增长,尤其是个人学习和研究。直接购置硬件成本高且更新快,建议选择阿里云等提供的GPU加速型服务器。
利用阿里云GPU加速服务器实现pdf转换为markdown格式
|
3天前
|
开发框架 缓存 .NET
阿里云轻量应用服务器、经济型e、通用算力型u1实例怎么选?区别及选择参考
在阿里云目前的活动中,价格比较优惠的云服务器有轻量应用服务器2核2G3M带宽68元1年,经济型e实例2核2G3M带宽99元1年,通用算力型u1实例2核4G5M带宽199元1年,这几个云服务器是用户关注度最高的。有的新手用户由于是初次使用阿里云服务器,对于轻量应用服务器、经济型e、通用算力型u1实例的相关性能并不是很清楚,本文为大家做个简单的介绍和对比,以供参考。
|
11天前
|
弹性计算 运维 安全
阿里云轻量应用服务器与ECS的区别及选择指南
轻量应用服务器和云服务器ECS(Elastic Compute Service)是两款颇受欢迎的产品。本文将对这两者进行详细的对比,帮助用户更好地理解它们之间的区别,并根据自身需求做出明智的选择。
|
12天前
|
SQL 弹性计算 安全
阿里云上云优选与飞天加速计划活动区别及购买云服务器后续必做功课参考
对于很多用户来说,购买云服务器通常都是通过阿里云当下的各种活动来购买,这就有必要了解这些活动的区别,同时由于活动内的云服务器购买之后还需要单独购买并挂载数据盘,还需要设置远程密码以及安全组等操作之后才能正常使用云服务器。本文就为大家介绍一下目前比较热门的上云优选与飞天加速计划两个活动的区别,以及通过活动来购买云服务器之后的一些必做功课,确保云服务器可以正常使用,以供参考。
|
15天前
|
弹性计算 安全 开发工具
灵码评测-阿里云提供的ECS python3 sdk做安全组管理
批量变更阿里云ECS安全组策略(批量变更)
|
24天前
|
运维 Ubuntu 应用服务中间件
自动化运维之路:使用Ansible进行服务器管理
在现代IT基础设施中,自动化运维已成为提高效率和可靠性的关键。本文将引导您通过使用Ansible这一强大的自动化工具来简化日常的服务器管理任务。我们将一起探索如何配置Ansible、编写Playbook以及执行自动化任务,旨在为读者提供一条清晰的路径,从而步入自动化运维的世界。
|
22天前
|
运维 网络安全 Python
自动化运维:使用Ansible实现批量服务器配置
在快速迭代的IT环境中,高效、可靠的服务器管理变得至关重要。本文将介绍如何使用Ansible这一强大的自动化工具,来简化和加速批量服务器配置过程。我们将从基础开始,逐步深入到更复杂的应用场景,确保即使是新手也能跟上节奏。文章将不包含代码示例,而是通过清晰的步骤和逻辑结构,引导读者理解自动化运维的核心概念及其在实际操作中的应用。
|
23天前
|
运维 Ubuntu 网络协议
自动化运维:使用Ansible进行服务器配置管理
在现代IT架构中,自动化运维已成为提升效率、减少人为错误的关键。本文将介绍如何使用Ansible这一强大的自动化工具来简化和标准化服务器的配置管理过程。通过具体的代码示例和操作步骤,我们将展示如何快速部署应用、管理配置以及自动化日常任务,从而确保环境的一致性和可靠性。
|
1月前
|
存储 人工智能 弹性计算
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理。通过合理优化资源分配、利用自动伸缩及高效数据管理,ECS能显著提升AI系统的性能与效率,降低运营成本,助力科研与企业用户在AI领域取得突破。
51 6
|
1月前
|
运维 安全 Ubuntu
自动化运维:使用Ansible进行服务器配置管理
在现代IT基础设施中,自动化运维是确保高效、稳定和安全服务的关键。本文将深入介绍如何使用Ansible这一开源工具来简化服务器配置管理工作,从基础安装到高级应用,我们将一步步展示如何通过Ansible Playbooks实现自动化部署和维护,旨在帮助读者构建更加灵活和可扩展的运维体系。
44 7

热门文章

最新文章