CloudOps云上自动化运维能力(2)

本文涉及的产品
无影云电脑个人版,1个月黄金款+200核时
资源编排,不限时长
无影云电脑企业版,4核8GB 120小时 1个月
简介: 介绍安全和合规能力Security,成本和资源量化管理能力Cost。

1. 安全和合规能力Security

1.1 基本概念

 

我国已出台关于网络与数据安全的法律、行政法规、部门规章、规范性文件等共计两百多部,包括网络安全治理的国家基本法《网络安全法》、数据安全的国家基本法《数据安全法》、隐私权与个人信息权益的国家基本法《个人信息保护法》等,形成了覆盖网络安全等级保护、关键信息基础设施安全保护、网络关键设备和网络安全专用产品管理、国家网络安全事件管理、密码管理、跨境活动网络安全管理、数据安全管理、个人信息保护等领域的网络安全法律法规体系。

 

无论是企业网络中还是云上,从个人和财务信息到数据保护和隐私,企业需要确保它们符合行业和法规要求,以确保数据的保护和隐私以满足当地政府机构的法律法规。

 

1)   云上安全的概念

 

通常意义的云计算安全或云安全指通过一系列策略、控制和技术,共同确保数据、基础设施和应用安全,保护云计算环境免受外部和内部网络安全威胁和漏洞的影响。越来越多的企业更加的重视云安全和合规,云上安全合规需要有自上而下的顶层设计,要以安全为出发点构建云上应用。

 

2)   云上安全的基本原则-安全责任共担模型

 

不同于传统的IDC,云计算是一种共享技术模型,其安全责任由双方共同承担,这通常被称为安全责任共担模型。

 

宏观上讲,云计算平台负责基础设施(包括跨地域、多可用区部署的数据中心,以及骨干传输网络)和物理设备(包括计算、存储和网络设备)的安全,并负责运行在云操作系统之上的虚拟化层和云产品层的安全。同时,云平台也负责平台侧的身份和访问的控制和管理、监控和运营,从而为客户提供高可用和高安全的云服务。

 

客户负责以安全的方式配置和使用各种云上产品,并基于这些云产品的安全能力,以安全可控的方式构建自己的云上应用和业务,保障云上数据的安全。

 

1.2 业务价值

 

近些年网络安全威胁愈发增多,各种安全事件频出,据Splunk发布的2022全球网络安全态势报告》数据显示:

 

•  49%的企业表示,他们在过去两年中遭受了数据泄露,比一年前调查中的39%有所增加。

•  79%的受访者表示,他们遇到过勒索软件攻击,35%的受访者承认曾有一次或多次攻击导致其无法访问数据和系统。

•  59%的安全团队表示,他们必须投入大量时间和资源进行补救,这一比例高于一年前的42%

•  因网络安全事件而遭受计划外停机的业务关键型工作负载的平均恢复时间为14小时,受访者估计这种停机的平均损失约为每小时20万美元。

 

传统IT结构向云化架构转变,所带来的网络安全威胁愈发大,会带来新的安全挑战。可能一个误操作就会让自己的应用从内网访问到公网访问或者泄露了自己的秘钥导致信息安全事件。安全和合规是数字化转型的基石,也是上云的第一步。

 

1.3 多个层面构建的安全与合规能力

 

云上安全与合规涉及多个层面,从客户上云开始接触云账号的安全,创建实例后实例内GuestOS的应用系统安全,使用时实例所在的网络环境安全,对高敏感信息有要求的信息数据安全,到使用云安全产品构建安全防御体系,以及涉及大量云上资源管理等一系列安全实践。

 

1.3.1 云账号安全

 

身份和访问管理是当今IT行业面临的最大挑战之一,也深受云计算的影响。云的IAMIdentity and Access Management,身份认证与访问管理)解决方案实现零信任安全,并且在每个资源的访问点评估访问请求。这将允许每个应用程序、每个策略和每个访问场景的分布式访问决策,基于云的IAM解决方案允许组织使用单点登录、多因素身份验证和访问控制来直接提供对云服务的安全访问。

 

账户是资源使用的硬边界,我们建议根据功能、业务、合规性要求等来进行账号的分配和隔离。在多用户需要协同操作资源的场景中,建议避免直接共享使用账号,共享账号的密钥等机密信息会大大增加泄露风险,一旦泄露会威胁账号下所有资源的安全。建议使用访问控制创建用户和用户组,并授予各用户和用户组最小权限,可以有效降低风险。

 

阿里云提供身份和访问管理的以下安全功能,在账号级别防范风险。

 

•  身份认证:用户可以使用其云账号(即主账号)或其云账号下RAM用户的密码登录阿里云控制台并对其云上资源进行操作,或者使用阿里云的Access KeyAK)通过API访问阿里云资源时对用户身份进行认证,也可以通过阿里云Security Token ServiceSTS)为RAM用户、阿里云服务、身份提供商等受信实体提供短期访问资源的权限凭证的云服务。颁发令牌时,管理员可以根据需要来定义令牌的权限和自动过期时间(默认为1小时过期)。此外,阿里云还支持MFA认证、SSO认证、SSH密钥对认证方式。

 

•  访问授权(RAM):阿里云为客户提供了多种工具和功能,用来帮助客户在各种情况下授权资源的使用权力。其中,阿里云为客户提供Resource Access ManagementRAM)资源访问控制服务,用于用户身份管理与资源访问控制。RAM使得一个阿里云账号(主账号)可拥有多个独立的子用户(RAM用户),从而避免与其他用户共享云账号密钥,并可以根据最小权限原则为不同用户分配最小的工作权限,从而降低用户的信息安全管理风险。RAM授权策略可以细化到对某个API-ActionResource-ID的细粒度授权,还可以支持多种限制条件(例如,源IP地址、安全访问通道SSL/TLS、访问时间、多因素认证等)。

 

常见的提升账号的安全措施有下面的手段

 

a)   开启MFA多因素账号认证

 

建议账号启用MFA多因素认证,即在用户名和密码(第一层安全要素)的基础上,增加了MFA安全码(第二层安全要素,MFA设备生成的动态验证码),以此提高账号安全性。

 

b)   使用RAM子账号而不是主账号并合理设置资源安全隔离

 

确保用户访问ECS资源使用最小使用权限,避免共享账号或是过于宽泛的授权。通过使用访问控制RAMResource Access Management),建议禁止直接使用主账号进行资源操作,可创建RAM子用户(组)并授予特定权限策略实现在账号维度上对云服务器ECS资源进行细粒度的访问控制。同时为了限制发起调用的子账号的网络范围,可以设置公网支持访问的CIDR地址。

 

•  用户:如果您购买了多台云服务器ECS实例,您的组织里有多个用户(如员工、系统或应用程序)需要使用这些实例,您可以创建多个子用户并通过授权的方式使部分用户能够有权使用这些实例,避免了将同一个AccessKey泄露给多人的安全风险。

•  用户组:您可以创建多个用户组,并授予不同权限策略,起到批量管理的效果。

•  用户组的策略

 

。       SysAdmins:该用户组需要创建和管理的权限。您可以给SysAdmins组授予一个权限策略,该策略授予用户组成员执行所有ECS操作的权限,包括ECS实例、镜像、快照和安全组等。

。       Developers:该用户组需要使用实例的权限。您可以给Developers组授予一个权限策略,该策略授予用户组成员调用DescribeInstancesStartInstanceStopInstanceRunInstanceDeleteInstance等权限。

 

c)   云产品API调用使用实例角色而不是AK

 

实例RAM角色(推荐使用加固模式访问元数据)允许您将一个角色关联到ECS实例,在实例内部基于STSSecurity Token Service)临时凭证(临时凭证将周期性更新)访问其他云产品的API。一方面可以保证AccessKey安全,另一方面也可以借助RAM实现权限的精细化控制和管理。

 

一般情况下,ECS实例的应用程序是通过用户账号或者RAM用户的AccessKey访问阿里云各产品的API

 

为了满足调用需求,需要直接把AccessKey固化在实例中,如写在配置文件中。但是这种方式权限过高,存在泄露信息和难以维护等问题。因此,阿里云推出了实例RAM角色解决这些问题。

 

d)   AK防泄密

 

阿里云账号AccessKey是客户访问阿里云API的密钥,请务必妥善保管。请勿通过任何方式(如Github等)将AccessKey公开至外部渠道,以免被恶意利用而造成安全威胁。AccessKey泄露会威胁所有资源的安全,可以有效降低AccessKey泄露的风险。

 

AK信息使用安全建议

 

在使用阿里云产品过程中需要用户遵循以下几点安全规范,降低凭证泄漏造成的影响:

 

•  不要将AccessKey嵌入代码中

•  定期轮换AccessKey

•  定期吊销不需要的AccessKey

•  遵循最小权限原则,使用RAM账户

•  开启操作日志审计,并将其投递至OSSSLS长期保存和审计

•  可以开启acs:SourceIp限定公网IP网段访问阿里云API

•  通过设置acs:SecureTransport取值为true,表示通过HTTPS方式访问阿里云

 

e)   账密管理安全建议

 

•  云账号

 

。       管理员账号必须开启MFA认证。

。       账号分级权限设置,最小权限授权原则。

。       禁用root账号访问API或常用请求方法。

。       建议使用服务目录集中身份管理。

 

秘钥凭据

 

。       过期的证书、凭据禁止使用。

。       根账号需删除访问秘钥。

。       30天以上不再使用的秘钥、凭据定期清理。

。       秘钥、凭据最新使用情况监控。

。       定期自动扫描您的GIT仓库和历史记录排查秘钥泄露可能。

 

密码

 

。       密码复杂性与到期提醒,密码强度校验。

。       密码复杂度策略强制实施。

。       设置与其他平台不一致的复杂账密,避免被社工风险。

。       建议AK以及其他账密信息使用KMS安全托管,避免明文落盘存储。

。       主机上不同账号间不应共享密码或秘钥对。

 

机密信息使用KMS安全加固托管

 

机密数据明文落盘存储会导致泄漏风险,建议您提前开通密钥管理服务,无需自行研发和运维密码设施,即可在云服务中使用数据加密功能,例如在云服务器ECS中使用云盘加密、实例可信启动等功能。

 

1.3.2 实例内GuestOs应用系统安全

 

a)   实例登陆安全配置

 

•  实例登陆权限控制

 

。       登陆账号权限默认非root权限,需用户在本地通过susudo提权至root,默认状态不支持root直接使用pem密钥文件登录。

。       建议使用安全的访问控制协议访问ECS主机,并根据镜像类型选择不同的登录凭证:

ü  Linux系统:建议配置只支持rsa密钥对的方式登录,不支持在控制台创建口令。

ü  Windows系统:使用8位以上包含特殊字符的复杂密码作为登录凭证。

 

Linux实例:默认非root账号登陆与设置秘钥对登陆实例

  

•  默认非root账号登陆实例

 

如果您使用系统用户root登录Linux操作系统的ECS实例,则可以获取系统最高权限。该方式虽然便于您进行系统运维操作,但如果ECS实例被入侵,则会存在影响严重的数据安全风险。

 

建议用户使用公共云镜像:Anolis OS 8.4 Ubuntu 20.04,该版本镜像支持设置普通用户ecs-user作为登录名,其他镜像版本会陆续支持设置普通用户ecs-user登录实例。

image.png

 

使用临时下发的SSH密钥对连接linux实例

 

ECS推荐使用config_ecs_instance_connect插件,可以将SSH公钥发送到指定实例内部供指定用户使用,密钥保留60s。在60s内,您可以通过SSH公钥登录的方式进入实例,无需输入密码。

 

SSH密钥对通过加密算法生成一对密钥,默认采用RSA 2048位的加密方式。相较于用户名和密码认证方式,SSH密钥对有以下优势:

 

。       安全性,SSH密钥对登录认证更为安全可靠。

。       密钥对安全强度远高于常规用户口令,可以杜绝暴力破解威胁。

。       不可能通过公钥推导出私钥。

。       便捷性。

。       如果您将公钥配置在Linux实例中,那么,在本地或者另外一台实例中,您可以使用私钥通过SSH命令或相关工具登录目标实例,而不需要输入密码。

。       便于远程登录大量Linux实例,方便管理。如果您需要批量维护多台Linux实例,推荐使用这种方式登录。

建议配置sshd_config默认禁止密码登陆只支持rsa密钥对的方式登录。ssh配置文件中修改关于密码登录的配置选项。

 

Windows实例:设置复杂的密码与定期更换

 

弱口令一直是数据泄露的一个大症结,因为弱口令是最容易出现的也是最容易被利用的漏洞之一。服务器的口令建议至少8位以上,从字符种类上增加口令复杂度,如包含大小写字母、数字和特殊字符等,并且要不定时更新口令,养成良好的安全运维习惯。

 

ECS设置为强密码:8-30个字符,必须同时包含三项(大写字母、小写字母、数字、()`~!@#$%^&*_-+=|{}[]:;'<>,.?/中的特殊符号),其中Windows实例不能以斜线号(/)为首字符。

 

b)   服务端口保护

 

服务器给互联网提供服务的同时会暴露对应的服务端口。从安全管理的角度来说,开启的服务端口越多,越不安全。建议只对外提供必要的服务端口,并修改常见端口为高端口(30000以后),再对提供服务的端口做访问控制。

 

例如:数据库服务尽量在内网环境使用,避免暴露在公网。如果必须要在公网访问,则需要修改默认连接端口3306为高端口,并根据业务授权可访问的客户端地址。

 

b)   避免服务弱口令

服务器给互联网提供服务的同时会暴露对应的服务端口。从安全管理的角度来说,开启的服务端口越多,越不安全。建议只对外提供必要的服务端口,并修改常见端口为高端口(30000以后),再对提供服务的端口做访问控制。

 

例如:数据库服务尽量在内网环境使用,避免暴露在公网。如果必须要在公网访问,则需要修改默认连接端口3306为高端口,并根据业务授权可访问的客户端地址。

c) 避免服务弱口令

 

如果您的服务器使用弱口令登录,黑客可能会非法登录您的服务器,窃取服务器数据或破坏服务器。建议您为服务器设置复杂的登录口令,并定期提升登录口令的安全性。口令提升办法:

 

•  设置复杂密码。

•  不使用常见或公开的弱口令。

•  定期修改密码。

 

常见系统的登录弱口令的操作防范,具体方法请参见修改常见的服务器弱口令

 

d)   使用IDaaS认证应用系统身份权限

 

云身份服务IDaaS(英文名:Alibaba Cloud IDentity as a Service,简称IDaaS)是阿里云为企业用户提供的云原生的、经济的、便捷的、标准的身份、权限管理体系。IDaaS提供一站式组织架构、账户全生命周期管理、应用接入实现单点登录(SSO),并控制账号所具备的权限等能力。

 

e)   数据传输加密

 

配置安全组或防火墙,确保仅允许 ECS 实例和 API 终端节点或其他敏感远程网络服务之间的加密连接,可使用传输层安全性(TLS1.2及以上版本)等加密协议加密在客户端和实例之间传输的敏感数据。

f )   日志异常监控与审计

 

根据FireEye M-Trends 2018报告,企业安全防护管理能力薄弱,尤其是亚太地区。全球范围内企业组织的攻击从发生到发现所需时长平均101天,而亚太地域平均需要498天。企业需要长期、可靠、无篡改的日志记录与审计支持来持续缩短这个时间。

 

建议您(客户)使用云监控、操作审计、日志审计、VPC流日志、应用日志等构建一套异常资源、权限访问监控告警体系,对及时发现问题与止损,对优化安全防御体系有至关重要的意义:

 

•  使用云监控设置账单报警,防止DDOS攻击。

 

•  使用操作审计ActionTrail监控未授权的访问、识别潜在安全配置错误、威胁或意外行为,也用于支持质量流程、法律或合规义务,还可以用于威胁识别和响应工作,请使用MFA限制ActionTrail访问权限。

 

•  启用配置VPC流日志记录VPC网络中弹性网卡ENI传入和传出的流量信息,使用Flowlog日志中心用于VPC的策略统计、弹性网卡流量统计以及网段间流量统计,帮助您快速、有效地分析VPC流日志。

 

•  使用日志审计服务,日志服务提供一站式数据采集、清洗、分析、可视化和告警功能,支持日志服务相关场景:DevOps、运营、安全、审计。

 

•  跟踪应用事件日志、Api调用日志。

 

•  所有日志定期同步SLSOSS长期保存,并设置好访问权限。

 

•  添加实例ID、地域、可用区、环境(测试、生产)附加信息到日志中存储,便于排查问题。

1.3.3 网络环境安全

 

云计算利用虚拟网络(Virtual Private Cloud,简称VPC),来抽象物理网络并创建网络资源池,实现数据链路层的隔离,为每个用户提供一张独立隔离的安全网络环境。不同VPC之间内部网络完全隔离,只能通过对外映射的IP互连。

 

VPC内部,用户可以自定义IP地址范围、网段、路由表和网关等;此外,用户可以通过VPN 网关、高速通道物理专线、智能接入网关等服务将本地数据中心和云上VPC打通,也可以通过云企业网实现全球网络互通,从而形成一个按需定制的网络环境,实现应用的平滑迁移上云和对数据中心的扩展。

 

此外,网络是所有云服务的唯一入口,网络攻击是种类最多、危害最大,也是最难防护的风险之一。云计算平台会提供一套成熟的网络安全架构,以应对来自互联网的各种威胁。在阿里云上,可以通过安全组、网络ACL、路由策略或网络专线来控制虚拟网络的访问权限。除了对内网网络访问的控制之外,还需要配置云防火墙、应用程序防火墙、DDoS 防护等安全措施,针对各种外部网络安全威胁,进行安全防护。

image.png

云上网络安全防御架构示例

 

a)   网络资源隔离安全建议

 

•  建立网络管理员,统一管理安全组、网络ACL以及流量日志。

•  使用ACL限制不需要公开的任何内容。

•  网络资源隔离,预设置较大子网,避免子网重叠使用。

•  围绕访问点而不是资源配置安全组。

•  定期重新访问安全组以优化规则。

 

b)   搭建实例安全的网络环境

 

合理设置安全组,网络隔离减少攻击面。

 

安全组是重要的网络安全隔离手段,用于设置单台或多台云服务器的网络访问控制。通过设置安全组规则,可以在网络层过滤服务器的主动/被动访问行为,限定服务器对外/对内的端口访问,授权访问地址,从而减少攻击面,保护服务器的安全。

 

以下是安全组实践的安全建议:

 

•  最小原则白名单开放

 

安全组应该是白名单性质的,所以需尽量开放和暴露最少的端口,同时尽可能少地分配公网IP

 

•  避免设置0.0.0.0/0授权对象

 

允许全部入网访问是经常犯的错误。使用0.0.0.0/0意味着所有的端口都对外暴露了访问权限。这是非常不安全的。正确的做法是,先拒绝所有的端口对外开放。安全组应该是白名单访问。

 

筛查潜在高危安全组

 

安全组规则设置不当会造成严重的安全隐患。阿里云会定期检查您的安全组,如果安全组规则对特定端口的访问不做限制,就会产生预警。您可以使用潜在高危安全组概览发现不合理的安全组规则,通过修改安全组规则保证ECS实例的网络安全。

 

。       关闭不需要的入网规则

。       以安全组为授权对象添加规则

 

不同的安全组按照最小原则开放相应的出入规则。对于不同的应用分层应该使用不同的安全组,不同的安全组应有相应的出入规则。

 

经典网络的内网安全组规则不要使用CIDR或者IP授权

 

对于经典网络类型的ECS实例,阿里云默认不开启任何内网的入规则。内网的授权一定要谨慎。

 

。       定义合理的安全组名称和标签

合理的安全组名称和描述有助于您快速识别当前复杂的规则组合。

 

将需要互相通信的ECS实例加入同一个安全组

 

一个ECS实例最多可以加入5个安全组,而同一安全组内的ECS实例之间是网络互通的。

 

安全组内实例间隔离

 

安全组是一种虚拟防火墙,具备状态检测和包过滤功能。安全组由同一个地域内具有相同安全保护需求并相互信任的实例组成。为了满足同安全组内实例之间网络隔离的需求,阿里云丰富了安全组网络连通策略,支持安全组内实现网络隔离。

 

使用安全组五元组规则

 

安全组用于设置单台或多台ECS实例的网络访问控制,它是重要的网络安全隔离手段,用于在云端划分安全域。安全组五元组规则能精确控制源IP、源端口、目的IP、目的端口以及传输层协议。

 

公网服务的云服务器和内网服务器尽量属于不同的安全组

是否对外提供公网服务,包括主动暴露某些端口对外访问(例如80443等),被动地提供端口转发规则(例如云服务器具有公网IPEIPNAT端口转发规则等),都会导致自己的应用可能被公网访问到。

 

。       合理配置安全域,隔离企业内部不同安全等级服务

 

您可以基于VPC专有网络,构建自定义专属网络,隔离企业内部不同安全级别的服务器,避免互通网络环境下受其他服务器影响。

 

建议您创建一个专有网络,选择自有IP地址范围、划分网段、配置路由表和网关等。然后将重要的数据存储在一个跟互联网网络完全隔离的内网环境,日常可以用弹性IPEIP)或者跳板机的方式对数据进行管理。具体步骤请参见创建专有网络

 

。       使用跳板机或堡垒机,防御内部和外部入侵破坏

 

跳板机由于其自身的权限巨大,需要通过工具做好审计记录,建议直接使用堡垒机,保障网络和数据不受来自外部和内部用户的入侵和破坏,同时运用各种技术手段监控和记录运维人员对网络内的服务器、网络设备、安全设备、数据库等设备的操作行为,以便集中报警、及时处理及审计定责。

 

使用跳板机SSH时,建议您优先使用SSH密钥对而不是密码登录。

 

。       公网IP合理分配,降低公网攻击风险

 

不论是经典网络还是专有网络(VPC)中,合理的分配公网IP可以让系统更加方便地进行公网管理,同时减少系统受攻击的风险。在专有网络的场景下,创建虚拟交换机时,建议您尽量将需要公网访问的服务区的IP区间放在固定的几个交换机(子网CIDR)中,方便审计和区分,避免不小心暴露公网访问。

 

在分布式应用中,大多数应用都有不同的分层和分组,对于不提供公网访问的云服务器尽量不提供公网IP,如果是有多台服务器提供公网访问,建议您配置公网流量分发的负载均衡服务来公网服务,提升系统的可用性,避免单点。

 

对于不需要公网访问的云服务器尽量不要分配公网IP。专有网络中当您的云服务器需要访问公网的时候,优先建议您使用NAT网关,用于为VPC内无公网IPECS实例提供访问互联网的代理服务,您只需要配置相应的SNAT规则即可为具体的CIDR网段或者子网提供公网访问能力,具体配置参见SNAT。避免因为只需要访问公网的能力而在分配了公网IPEIP)之后也向公网暴露了服务。

 

1.3.4 信息数据安全

 

a)   使用高安全要求业务使用增强计算实例

 

如果您的业务面向高安全可信要求的场景,可以使用安全增强型实例,保障实例可信启动和实例中隐私数据的安全。

 

•  支持Intel® SGX加密计算,支持加密内存,保障关键代码和数据的机密性与完整性不受恶意软件的破坏。

•  依托TPM/TCM芯片,从底层服务器硬件到GuestOS的启动链均进行度量和验证,实现可信启动。

 

b)   使用更安全的镜像

 

•  使用满足三级等保合规镜像

 

阿里云根据国家信息安全部发布的《GB/T22239-2019信息安全技术网络安全等级保护基本要求》中对操作系统提出的一些等级保护要求,推出自研云原生操作系统Alibaba Cloud Linux等保2.0三级版镜像。您使用本镜像无需额外配置即可满足以下等保合规要求:

 

。       身份鉴别

。       访问控制

。       安全审计

。       入侵防范

。       恶意代码防范

 

•  使用公共镜像开启镜像安全加固

 

使用官方提供的公共镜像,可开启公共实例镜像安全加固能力,该安全加固能力提供网站漏洞检查、云产品安全配置检查、主机登录异常告警等安全功能。

 

使用加密的自定义镜像

 

避免镜像丢失后数据泄露风险,请使用国际标准认证的AES-256算法对镜像进行加密。

 

用户可选择创建加密的系统盘、数据盘,若云盘是加密云盘,使用该云盘创建的快照也是加密镜像,或对已有的未加密镜像拷贝时选择加密,生成的新镜像为加密镜像。

 

若自定义加密镜像需要共享其他云账号时,建议用户为共享加密镜像创建独立的BYOK密钥,避免KMS密钥泄露导致安全风险。

 

c)   云盘数据加密(需开启KMS

 

选择云盘数据加密,能够最大限度保护您的数据安全,您的业务和应用程序无需做额外的改动。同时该云盘生成的快照及这些快照创建的云盘将自动延续加密属性。数据加密适用于数据安全或法规合规等场景,帮助您加密保护存储在阿里云ECS上的数据。无需自建和维护密钥管理基础设施,您就能保护数据的隐私性和自主性,为业务数据提供安全边界,被加密的云盘可以是系统盘和数据盘。

  image.png

d)   快照容灾备份

 

数据备份是容灾的基础,可以降低因系统故障、操作失误以及安全问题而导致数据丢失的风险。ECS自带的快照功能可满足大部分用户数据备份的需求。您可根据自身业务需求选择创建快照的方式。具体步骤请参见手动创建快照执行或取消自动快照策略

 

建议您每日创建一次自动快照,每次快照至少保留7天,养成良好的备份习惯,在故障发生时可以迅速恢复重要数据,减少损失。

 

image.png

e)   使用加密的快照

 

ECS加密采用行业标准的AES-256加密算法,利用密钥加密快照,避免快照丢失后数据泄露风险。

 

用户可选择创建加密的云盘,若云盘是加密云盘,使用该云盘创建的快照也是加密快照,或对已有的未加密快照拷贝时选择加密,生成的新快照为加密快照。

 

f)   加固模式下访问实例元数据

 

加固模式下,实例和实例元数据服务器间建立一个会话,并在查看实例元数据时通过token验证身份,超过有效期后关闭会话并清除tokentoken具有以下特点:

 

•  仅适用于一台实例。如果将token文件复制到其它实例使用,会被拒绝访问。

•  必须定义token有效期,范围为1~21600秒(6小时)。在有效期内可以重复使用,方便您平衡安全性和用户体验。

•  不接受代理访问,如果创建token的请求中包含X-Forwarded-For标头,则拒绝签发token

•  不限制向实例签发的token数量。

 

1.3.5  应用安全防护

 

•  网络流量攻击防护:基础DDOS防御(免费)与DDOS高防

DDoSDistributed Denial of Service,即分布式拒绝服务)攻击指借助于客户/服务器技术,联合多个计算机作为攻击平台,对一个或多个目标发动攻击,成倍地提高拒绝服务攻击的威力,影响业务和应用对用户提供服务。

 

阿里云云盾可以防护SYN FloodUDP FloodACK FloodICMP FloodDNS FloodCC攻击等37DDoS的攻击。DDoS基础防护免费提供高达5GB的默认DDoS防护能力。

 

ECS实例默认开启DDoS基础防护服务。使用DDoS基础防护服务,无需采购昂贵清洗设备,受到DDoS攻击时不会影响访问速度,带宽充足不会被其他用户连带影响,保证业务可用和稳定。ECS实例创建后,您可以设置清洗阈值,具体步骤请参见设置清洗阈值

 

在此基础上,阿里云推出了安全信誉防护联盟计划,将基于安全信誉分进一步提升DDoS防护能力,您可获得高达100GB以上的免费DDoS防护资源。您可以在云盾DDoS基础防护控制台中查看您账号当前的安全信誉分以及安全信誉详情和评分依据。详情请参见安全信誉防护联盟。对DDOS防御有更高要求的可购买DDOS高防。

 

系统漏洞攻击防护:云安全中心(基础版免费)

 

接入云安全中心。云安全中心是一个实时识别、分析、预警安全威胁的统一安全管理系统,通过防勒索、防病毒、防篡改、合规检查等安全能力,实现威胁检测、响应、溯源的自动化安全运营闭环,保护云上资产和本地主机并满足监管合规要求。

 

Agent插件是云安全中心提供的本地安全插件,您必须在要防护的服务器上安装该插件才能使用云安全中心的服务。如何安装Agent插件,请参见安装Agent

 

云安全中心自动为您开通基础版功能。基础版仅提供主机异常登录检测、漏洞检测、云产品安全配置项检测,如需更多高级威胁检测、漏洞修复、病毒查杀等功能,请登录云安全中心控制台

 

系统漏洞问题是长期存在的安全风险,可以通过系统补丁程序,或者安骑士补丁修复。Windows系统需要一直开启补丁更新,Linux系统要设置定期任务,通过执行yum update-y来更新系统软件包及内核。安骑士如何修复漏洞,请参见安骑士补丁管理

 

云盾旗下的安骑士产品具有识别并防御非法破解密码行为的功能,避免被黑客入侵,批量维护服务器安全。安骑士能针对服务器应用软件安全方面提供配置检测和修复方案,提高服务器安全强度。详细功能介绍请参见安骑士产品功能列表

 

应用漏洞攻击防护:云盾Web防火墙

 

云盾Web应用防火墙(Web Application Firewall,简称WAF)基于云安全大数据能力实现,通过防御SQL注入、XSS跨站脚本、常见Web服务器插件漏洞、木马上传、非授权核心资源访问等OWASP常见攻击,过滤海量恶意CC攻击,避免您的网站资产数据泄露,保障网站的安全与可用性。

 

接入Web应用防火墙的好处如下:

 

。       无需安装任何软、硬件,无需更改网站配置、代码,它可以轻松应对各类Web应用攻击,确保网站的Web安全与可用性。除了具有强大的Web防御能力,还可以为指定网站做专属防护。适用于在金融、电商、o2o、互联网+、游戏、政府、保险等各类网站的Web应用安全防护上。

 

。       如果缺少WAF,只有前面介绍的防护措施,会存在短板,例如在面对数据泄密、恶意CC、木马上传篡改网页等攻击的时候,不能全面地防护,可能会导致Web入侵。

 

接入Web应用防火墙的具体步骤,请参见部署WAF防护

 

1.3.6 应用资源管理

 

规模化、自动化运维与审计云上资源,避免因低级错误的配置变更造成出现例外或单点资产保护遗漏情况。

 

建议您(客户)统一实例、安全组的命名安全与部署约定,统一命名规范,定期检测、提醒或删除不符合命名规范的安全组、实例。使用Tag标签规模化管理资源,使用云助手自动化运维资源通道,使用配置审计Config对资源进行合规审计,使用应用配置管理ACM集中管理所有应用配置。

 •  Tag标签

 

标签可以标记资源,允许企业或个人将相同作用的云服务器ECS资源归类,便于搜索和资源聚合:

 

。       使用Tag规模化识别、分类、定位云资源的管理与计费。

。       使用自动化工具管理Tag标签,从而更轻松地自动管理、搜索和过滤标签和资源。

 

云助手

 

传统的运维通道需要借助SSH取得密钥进行管理,并开放相应的网络端口,密钥管理不当以及网络端口暴露都会对云上资源带来很大的安全隐患。

 

云助手是专为云服务器ECS打造的原生自动化运维工具,通过免密码、免登录、无需使用跳板机的形式,在ECS实例上实现批量运维、执行命令(ShellPowershellBat)和发送文件等操作。

 

典型的使用场景包括:安装卸载软件、启动或停止服务、分发配置文件和执行一般的命令(或脚本)等。可以帮助客户安全、高效的运维云上资源。通过云助手,可以在云服务器ECS上实现批量运维、执行命令和发送文件等操作;通过云助手Session Manager,可以交互式运维ECS实例。

 

以上运维操作都无需密码,无需登录,ECS实例不需要使用公网,也不需要通过跳板机,通过云助手以下安全机制保证运维通道的安全性:

 。       权限控制:云助手通过RAM策略,从实例、资源组、标签、源IP地址等多个维度控制用户对实例的访问权限。只有具有权限的用户才能通过云助手通道运维ECS实例。

 

。       链路可靠:全链路采用Https协议进行交互,传输过程中对数据进行加密。ECS实例入方向采用内部安全管控链路,无需用户开放端口,降低被入侵的风险;出方向通过内网进行通信,无需暴露公网即可使用。

 

。       内容安全:通过云助手通道传输的命令内容,通过加密及签名校验的方式,确保传输过程中无法被篡改,保证命令内容的安全性。

 

。       日志审计:通过云助手通道传输的命令、文件都可以通过API进行审计,用户可以查询执行的时间、身份、执行内容、执行结果等信息。同时支持将日志投递到存储(OSS)或日志(SLS)等系统中,提供日志归档、分析能力。

配置审计Config

 

配置审计Config是面向云上资源的审计服务,为用户提供跨区域的资源清单和检索能力,记录资源的历史配置快照,形成配置时间线。当资源发生配置变更时,自动触发合规评估,并针对不合规配置发出告警。使用户能够实现对于海量云上资源合规性的自主监控,应对企业内部和外部合规的需要。

 

应用配置管理ACM

 

应用配置管理ACMApplication Configuration Management)是一款在分布式架构环境中对应用配置进行集中管理和推送的产品。凭借配置变更、配置推送、历史版本管理、灰度发布、配置变更审计等配置管理工具,ACM能帮助您集中管理所有应用环境中的配置,降低分布式系统中管理配置的成本,并降低因错误的配置变更造成可用性下降甚至发生故障的风险。

 

1.4 云安全成熟度模型

image.png

如果您希望对所在企业的安全与合规能力成熟度进行评估,建议至第十章成熟度自评

 

1.5 工具推荐

 

1)   阿里云在安全和合规方面主要相关产品

 

•  安全组

 

安全组是阿里云提供的实例级别虚拟化防火墙,具备状态检测和数据包过滤功能,可用于在云端划分各个ECS实例(在容器服务中,即各个容器集群)间的安全域。安全组是一个逻辑上的分组,这个分组是由同一个地域(Region)内具有相同安全保护需求并相互信任的实例组成。使用安全组可设置单台或多台云服务器的网络访问控制,它是重要的网络安全隔离手段,用于在云端划分网络安全域。配置严格的安全组访问权限,是最简单直接的防范网络攻击、屏蔽恶意流量的方式。

 

网络ACL

 

网络ACL是专有网络VPC中的网络访问控制功能。您可以自定义设置网络ACL规则,并将网络ACL与交换机绑定,实现对交换机中云服务器ECS实例流量的访问控制。网络ACL是在VSW粒度对进出VSW的流量做检测和数据包过滤。

 

云防火墙

云防火墙在安全组、网络ACL功能的基础上提供了补充,为构建网络安全环境提供了更好的深层防御。安全组、网络ACL提供分布式网络层流量过滤,以限制每个订阅中虚拟网络内资源的访问流量。如果用户需要跨虚拟网络,启用某些应用程序级别的保护时,则需要使用云防火墙服务。

 

阿里云云防火墙是业界首款公共云环境下的SaaS化防火墙,可以统一管理互联网到业务的南北向访问策略,以及业务与业务之间的东西向微隔离策略。

 

通过云防火墙,用户可以对南北向和东西向访问的网络流量进行分析,并支持全网流量(互联网访问流量、安全组间流量等)可视化,并支持对主动外联行为的分析和阻断。

 

云防火墙还集成了入侵检测(IPS)功能和威胁情报能力,并支持入侵检测分析。同时,云防火墙支持网络流量及安全事件日志存储功能,默认保存6个月的安全事件日志、网络流量日志及防火墙操作日志,满足网安法和等保2.0的相关要求。

 

Web应用防火墙WAF

 

Web应用防火墙(WAF),云防火墙为所有端口和协议提供网络级别的保护,Web应用程序防火墙(WAF)是应用程序网关的一项功能,为您的网站或App业务提供一站式安全防护。

 

WAF可以有效识别Web业务流量的恶意特征,在对流量进行清洗和过滤后,将正常、安全的流量返回给服务器,避免网站服务器被恶意入侵导致服务器性能异常等问题,保障网站的业务安全和数据安全。

 

DDoS防护

 

阿里云使用自主研发的DDoS防护系统保护所有数据中心,支持防护全类型DDoS攻击,并通过AI智能防护引擎对攻击行为进行精准识别和自动加载防护规则,保证网络的稳定性。同时,阿里云的DDoS防护系统支持通过安全报表实时监控风险和防护情况。

 

操作审计ActionTrail

 

操作审计(ActionTrail)为用户提供统一的云资源操作安全日志管理,记录云账号下的用户登录及资源访问操作,包括操作人、操作时间、源IP地址、资源对象、操作名称及操作状态。

 

利用ActionTrail保存的操作记录,用户可以实现安全分析、入侵检测、资源变更追踪以及合规性审计。为了满足用户的合规性审计需要,用户往往需要获取主账户和其子用户的详细操作记录。ActionTrail所记录的操作事件可以满足此类合规性审计需求。

 

配置审计Config

 

配置审计Config是面向云上资源的审计服务,为用户提供跨区域的资源清单和检索能力,记录资源的历史配置快照,形成配置时间线。当资源发生配置变更时,自动触发合规评估,并针对不合规配置发出告警,使用户能够实现对于海量云上资源合规性的自主监控,应对企业内部和外部合规的需要。

 

日志审计服务

 

在继承现有日志服务所有功能外,阿里云还支持多账户下实时自动化、中心化采集云产品日志并进行审计,以及支持审计所需的存储、查询及信息汇总。

 

日志审计服务覆盖基础(ActionTrail、容器服务Kubernetes版)、存储(OSSNAS)、网络(SLBAPI网关)、数据库(关系型数据库RDS、云原生分布式数据库PolarDB-X1.0、云原生数据库PolarDB)、安全(WAFDDoS防护、云防火墙、云安全中心)等产品,并支持自由对接其他生态产品或自有SOC中心。

 

云助手

 

云助手是专为云服务器ECS打造的原生自动化运维工具,通过免密码、免登录、无需使用跳板机的形式,在ECS实例上实现批量运维、执行命令(ShellPowershellBat)和发送文件等操作。典型的使用场景包括:安装卸载软件、启动或停止服务、分发配置文件和执行一般的命令(或脚本)等。

 

访问控制RAM

 

访问控制RAM使您能够安全地集中管理对阿里云服务和资源的访问。您可以使用 RAM创建并管理子用户和用户组,并通过权限管控他们对云资源的访问。

 

云安全中心

 

云安全中心是一个实时识别、分析、预警安全威胁的统一安全管理系统,通过防勒索、防病毒、防篡改、合规检查等安全能力,实现威胁检测、告警响应、攻击溯源的自动化安全运营闭环,保护您的云上资产和本地服务器安全,并满足监管合规要求。

 

应用配置管理ACM

 

应用配置管理(Application Configuration Management,简称ACM)是一款在分布式架构环境中对应用配置进行集中管理和推送的产品。

 

1)   阿里云产品和能力与业界工具对照表

image.png

2. 成本和资源量化管理能力Cost

 

2.1 成本管理能力的基本概念

 

企业自建IDC是一个重资产长周期的过程,整个采购、部署周期以周或月为单位计算,同时企业需要对相应IT设备的整个生命周期负责,除了经济成本,还需要付出较大的时间成本和人力成本。而使用云服务,企业进入了一个全新的消费模式:按需使用、按量付费、运维标准化和自动化。从云服务商的视角,随着云计算规模的不断扩大,其自身的边际成本在不断降低,企业在云上也可以进一步享受到云计算的规模红利。因此从宏观上看,使用云服务会大幅降低企业在IT方面的经济成本、时间成本、人力成本。

 

需要注意的是,在云上的按需使用的消费模式给企业的组织管理带来新的挑战,自建IDC模式是一次性采购一次性支出,云上变成了实时的按需采购与支出,对运维,财务、技术、产品团队的协作模式有了新的要求。FinOps基金会给出的FinOps定义里认为云上成本管理是由技术与运维、产品与业务、财务与采购等多个团队在数据驱动的支出决策上进行协作,使企业能够获得最大的业务价值

 

不同的团队侧重点会不一样,下面概述不同团队视角所需要重点关注的内容:

 

技术与运维

•  需重点关注云资源使用的灵活性、性价比以及资源利用率。

 

产品与业务

•  需重点关注云资源本身的成本以及使用效率以便业务的高效扩展与迭代。

 

财务与采购

•  需重点关注业务团队的云资源预算,各业务团队云资源成本的分析,云资源成本异常的监控。

 

2.2 成本管理能力的业务价值

 

Flexera 2022年云状态报告数据显示:受访企业认为他们云开支里有32%是浪费的,高于去年的30%。中国信息通信研究院的云MSP服务发展调查报告显示:云优化能力成为企业选择云管理服务商时考虑的重要因素,其中,容量和成本优化、云上应用性能优化成为企业云管理的首要需求。

 

云上有丰富的资源计费方式,例如云上特有的抢占式实例可以低至1折;丰富的资源规格,例如云上特有的突发性能实例成本低廉,非常适合轻量级web应用、开发/测试环境等低性能负载业务场景;云上提供了多种提升资源利用率的方法,例如开启节省停机模式后在停机期间不收取计算资源费用。因此,从技术、产品团队角度看,选择合适的资源计费方式、资源规格类型、提升资源利用率都是可以有效降低成本的。从财务角度看,预算管理、成本分析是非常基础的诉求,这些在云上应当如何使用是需要重点关注的。

 

综上,本章节将从资源计费方式选型、资源规格选型、提升资源利用率、成本分析与监控角度来说明云上成本管理的方法。

  image.png

 

1)   资源计费方式选型

 

以云服务器为例,它的资源成本主要由计算、存储、网络三大部分构成。在云上,针对每部分,一般会提供丰富的计费方式,不同的计费方式背后是成本低廉性(简称经济性)、使用灵活性、资源确定性三者的平衡。

 

通常,云上计算资源从产品形态看一般有三种:包年包月、按量付费、抢占式实例,其中包年包月为国内云厂商特有的形态。三种产品形态对应了不同的产品能力,如包年包月费用低但一般会对降配、释放(退订)等做一定的限制,因此会丧失一定的灵活性,同时从团队的视角看,包年包月这种付费方式,财务团队与运维团队是强耦合的。

 

例如退订一台包年包月的实例后再重新创建一台相同或相近配置的包年包月实例,这是运维很朴素的需求,然而整个流程里都要依赖财务团队;按量付费拥有最强的灵活性,可以随意创建释放升降配,但费用较高;抢占式实例在保护期之外随时可能被系统回收释放,资源的确定性相对较低,对应用本身兼容性要求很高,但价格相比按量付费可以低至1折。

 

从付款方式看主要有三种:全预付、部分预付、后付费,三种付款方式对应了不同的折扣体系,诚然,全预付可以享受更高的折扣,其他次之。

 

按量付费的产品形态一般采用后付费的付款方式,但由于后付费费用较高,云厂商提供了预留实例(Reserved Instances)、节省计划(Savings Plans)等可抵扣后付费账单的产品,企业可以通过预付费的方式购买这些产品享受高的折扣从而降低成本,同时由于这类产品的特点是资源与账单解耦,意味着财务和运维团队可以解耦,运维可以随意创建释放资源,无需与财务打交道,因此这种按量付费的产品加上抵扣类产品搭配使用的方式可以兼顾资源的灵活性和成本的低廉性,但是需要预估好资源的使用量,避免抵扣率低造成成本的浪费。

 

为了解决按量付费产品形态下资源的确定性问题,云厂商提供了容量预留(Capacity Reservations)产品,企业购买此产品后,立刻开始以后付费的方式计费,无论何时创建资源只要能匹配到预留的容量里都确保有库存,此时只收取实例费用,不收取容量预留费用。需要注意容量预留的利用率,避免利用率太低造成成本浪费。

 

可以看到,企业在云上针对计算资源选择适合自己业务的产品形态、付款方式是非常重要的,采用不同的方式会直接影响到资源的产品功能与成本,往往需要联合业务团队、技术团队、财务团队协作才能达到最优效果。

 

下图总结了上述各种产品在经济性、灵活性、确定性方面的平衡情况:

image.png

•  选择合适的计费方式降低成本

 

企业根据实际的业务需求和应用场景,为不同类型应用的资源选择合适计费方式,才能更好地实现云上成本控制。常见的业务类型有如下四种:

image.png

下面总结了不同业务类型适用的计费方式:

image.png

1)   资源规格选型

 

计算资源

 

计算资源从处理器类型角度看,业界典型的厂商或者架构IntelAMDARM三种云厂商都有提供,全面覆盖企业的各种场景。从产品能力看,分为通用型、计算型、内存型、高主频型、大数据型、本地SSD型、GPU型、FPGA型、突发性能型等,计算资源规格选型是企业在成本方面需要重点关注的,只有选择适合自己业务场景的规格类型,才能获得最优的性价比,如某电商网站根据自身业务特点选择计算型实例(4vCPU),相比通用型,成本降低20%以上,再如突发性能实例成本低廉,其中的小规格非常适合轻量级web应用、开发/测试环境等低性能负载业务场景。

 

另外企业在选型后,在实例运行过程中应及时监控资源的负载情况,以便及时调整到适合自己的规格。

 

云厂商根据不同的使用场景推出了不同的实例规格,而且在不断的更新迭代,如阿里云云服务器ECS,目前已经迭代至第七代,越新的实例意味着性价比越高,企业在选型时应尽量选择最新一代的实例。

 

存储资源

 

云服务器搭配的存储资源从架构看,主要有本地盘、云盘、NFS,三者之间存在以下差异:

 

。       性能和成本方面:在相同成本下,本地盘相比云盘,拥有更高的性能,但有数据丢失的风险,而云盘数据可靠性高,以阿里云云盘为例,可达99;但NFS通常拥有更高的数据可靠性,以阿里云NAS为例,其可靠性达119,但NAS 性能会更弱一些,相对应的成本也更低。

 

。       产品功能方面:本地盘有诸多限制,如不支持快照、不支持变配、宕机迁移不保留数据等;而云盘没有这些限制;NFS产品能力上天然支持共享存储,这也是本地盘、云盘所不具备的。

 

不同的存储资源拥有不同的功能、性能、成本。对于企业来说,需要根据自己的业务特点选择适合自己存储资源。

 

2)   提升资源利用率

 

提升资源利用率也是控制成本的一种方式,企业需要充分发挥云上的弹性能力、自动化运维能力、监控能力,做到在业务需要时创建资源,在业务空闲时停止或释放闲置资源;在业务增长时升级资源规格,在业务需求下降时降低规格;提升资源利用率也包括提升资源的使用效率,效率的提升可以降低企业人工操作的成本。下面列举一些提升资源利用率的方法。

 

提升利用率

 

。       针对抵扣类产品,如预留实例券、节省计划、容量预留等,企业需要定期关注其利用率与覆盖率,避免利用率过低造成浪费,同时若发现利用率已达到100%,要及时升级加购。云厂商一般都会提供相应的工具,企业可以在云厂商控制台进行查看与调整,或者集成云厂商提供的OpenAPI自动化调整。

 

。       企业可以通过云厂商提供的监控工具来实时监控计算资源CPU、内存的利用率,及时根据前面章节提到的弹性能力进行资源的水平、垂直弹性伸缩,提升利用率降低成本。若存在长期负载较低的情况,建议使用突发性能实例来降低成本。

 

。       针对按量付费实例,若非7*24小时提供服务,可以开启节省停机模式,开启后停机时间不收取计算资源费用,可以借助自动化运维工具来实现周期性定时开关机(开关节省停机模式)。

 

。       针对包年包月实例,若企业不再使用,可以进行退订,但云厂商通常会对退订做一定额度的限制,企业需要避免大量退订导致超出可退订额度。

 

。       针对实例的带宽,若周期性出现带宽较高的场景,可以借助自动化运维工具,定时升降带宽,实时调整带宽避免浪费。

 

提升效率

 

。       针对抢占式实例,企业参照相关使用的最佳实践,包括消费实例被系统回收释放的消息,借助诸如弹性供应等产品来实现算力集群的稳定交付,提升资源使用效率。

 

。       针对包年包月实例,若企业长期使用,可以开启自动续费、也可以借助统一到期日这样的功能来提升续费效率。

 

释放闲置资源

 

。       企业可以通过云厂商提供的监控工具来实时监控计算资源CPU、内存、磁盘的使用率,关注是否存在资源闲置。

 

。       针对弹性公网IP,企业需要特别关注,是否存在资源闲置,若存在应及时释放,避免付出资源占用费。

 

值得一提的是云厂商们纷纷推出了Advisor产品,企业可以授权Advisor产品定期扫描自己账号下的资源,给出安全、性能、稳定性、成本各方面的建议,企业可以依据给出的建议做优化。

 

3)   成本分析与监控

 

企业在云上的消费通常是跨多个云产品的,企业内部对云资源的消费通常是跨多部门的,各部门都会产生云资源的开支,而企业财务部门是需要为每笔开支负责的,因此从企业财务部门视角看,对云厂商有以下诉求:

 

。       清楚地知道企业内部各个部门每月消费了多少金额。

。       通过设置预算来管理各个部门的开支。

。       需要工具从各个维度分析自身成本,判断自身成本是否合理,是否有优化空间。

。       成本异常监控能力。

 

针对以上诉求,云厂商也提供了解决方案:组织管理、预算管理、异常监控、成本分析与优化。

 

组织管理

 

企业财务人员可以在云厂商提供的组织管理工具里创建自己的组织,以一种目录树的形式将使用云资源的部门、团队录入。

 

当部门使用资源的时候需要为对应的资源打上标签或资源组,之后在组织管理工具里可以设置自动分配规则,如:创建“团队A”这样一个组织,设置一个自动分配规则:当云资源有“Key=团队”,“Value=A”的标签时,将该资源自动分配到“团队A”这个组织里,之后就可以以“团队A”这个组织为维度来查看相关资源所消耗的费用。

 

预算管理

 

企业财务人员可以在云厂商的预算管理工具里根据上述的组织、标签、资源组等维度来设置预算,若某组织超过预算,财务人员可以收到邮件提醒。

 

异常监控

 

云厂商提供了异常监控能力,可以设置根据一定的条件进行每日巡检,如有消费异常可以收到邮件提醒。

 

成本分析与优化

 

云厂商通常会提供一些成本分析的工具供企业使用,提供的能力有:

 

。       支持各个维度的成本分析,如:组织维度、账号维度、产品维度、账单类型维度、标签维度、地域维度等。

。       支持将分析时使用的条件保存下来形成一个报告/报表,将消费情况可视化,便于以后更方便地查看和分析。

。       根据历史消费记录,预测下一个周期的消费金额,便于企业做预算的时候参考。

 

成本优化方面云厂商也有工具推出,即根据企业在云上消费的资源,自动分析和推荐一些优化方案,如资源闲置建议释放、资源利用率低建议降配、按量付费资源使用较多时会推荐购买合适的预留实例券/节省计划等。

 

上述成本分析与监控的能力,企业除了可以在云厂商控制台进行查看管理外,也可以把将云厂商相关财务类的OpenAPI对接到自己的财务系统里,更方便自主地做成本控制。

 

 

2.3 如何衡量成本管理能力成熟度

 

1)   如何衡量成本管理能力

 

企业可以通过对自身资源使用量、各类付费方式的使用情况、弹性能力的使用情况、成本分析与监控的使用情况、是否具备一定的成本预测能力等维度来衡量自身的成本管理能力,详细分级情况见下表。

 

2)   成本管理能力分级

image.png

 如果您希望对所在企业的云成本和资源量化管理能力成熟度进行评估,建议至第十章“CloudOps成熟度自评”。

 

2.4 工具推荐

 

2.4.1 阿里云产品推荐

 

a)   计费方式选型

 

计算资源

 

下面总结了在阿里云ECS各计费方式的特点与适用场景:

 

image.png

 

存储资源

 

阿里云云服务器ECS依赖的块存储资源(也称之为云盘),其产品形态主要有包年包月、按量付费两种,包年包月成本低但灵活性较差,按量付费灵活性高但成本也高。

 

需要指出前面提到的节省计划是支持抵扣按量付费云盘账单的,而前面提到的预留实例券不支持抵扣按量付费云盘账单,但阿里云提供了与预留实例券类似的可以抵扣存储资源账单的产品存储单位容量包。下面总结了各个产品的特点以及使用的场景:

image.png

 

网络资源

 

阿里云ECS网络资源的成本主要在公网IP与带宽上,公网IP分为普通公网IP与弹性公网IP,普通公网IP的生命周期与ECS一致,不收取公网IP地址资源占用费,而弹性公网IP可独立于ECS存在,若其IP地址未分配到ECS实例上,会收取IP地址资源占用费,因此弹性公网IP如果闲置将会产生一定的成本浪费,这是值得企业关注的。

 

带宽的计费方式分为按使用流量计费和按固定带宽计费,按使用流量计费以“元/GB”为定价单位,即实际消耗多少GB就付多少费用并按小时出账,按固定带宽计费支持预付费和后付费两种模式,按照配置的带宽峰值进行按小时或按月按年收费,不关心实际消耗多少流量。因此企业在选择带宽计费方式的时候,需要根据自己的业务特点进行判断,若业务属于平时带宽使用较低但间歇性的出现网络访问高峰的场景,适合选择按使用流量计费,而稳定的7*24小时服务更适合选择按固定带宽计费。

 

在云上,公网IP与带宽不止用于诸如阿里云ECS这种云服务,也会用在负载均衡,公网Nat网关等提供公网访问的产品上,针对按固定带宽计费的公网带宽,云厂商提供了共享带宽包产品,可将上述多个产品的公网带宽统一加入到共享带宽包里,由于支持预付费模式,同时多产品间带宽可以互相复用,所以可以有效降低成本,同时方便统一管理和监控公网流量,利用共享带宽包提供超大峰值的带宽,也不需要担心带宽跑满。

 

针对按使用流量计费的公网带宽,云厂商提供了共享流量包,与共享带宽包类似,企业可以通过预付费模式享受一定的折扣来降低成本。不过使用这类产品企业需要预估好自己的公网流量,避免购买过大的带宽包,使用率过低从而造成成本浪费。

 

a)   资源规格选型

 

计算资源选型

 

阿里云ECS所提供的的实例规格为例,下图总结了阿里云ECS所提供的实例规格适用的业务场景:

  image.png

 

存储资源选型

 

阿里云云盘、本地盘、NAS在数据可靠性、成本、性能、产品功能等方面的对比情况:

image.png


2.4.2 业界相关工具参考

 

Gartner官网提供了做IT成本管理相关的公司,可以参见此链接






相关文章
|
2月前
|
机器学习/深度学习 人工智能 运维
构建高效运维体系:从自动化到智能化的演进
本文探讨了如何通过自动化和智能化手段,提升IT运维效率与质量。首先介绍了自动化在简化操作、减少错误中的作用;然后阐述了智能化技术如AI在预测故障、优化资源中的应用;最后讨论了如何构建一个既自动化又智能的运维体系,以实现高效、稳定和安全的IT环境。
74 4
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
63 4
|
18天前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
18天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
43 1
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
1月前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
58 4
|
2月前
|
运维 jenkins 持续交付
自动化部署的魅力:如何用Jenkins和Docker简化运维工作
【10月更文挑战第7天】在现代软件开发周期中,快速且高效的部署是至关重要的。本文将引导你理解如何使用Jenkins和Docker实现自动化部署,从而简化运维流程。我们将从基础概念开始,逐步深入到实战操作,让你轻松掌握这一强大的工具组合。通过这篇文章,你将学会如何利用这些工具来提升你的工作效率,并减少人为错误的可能性。
|
2月前
|
存储 运维 Cloud Native
阿里云国际CloudOps的优势和云上运维的特点
阿里云国际CloudOps的优势和云上运维的特点
|
2月前
|
运维 Prometheus 监控
运维中的自动化实践每月一次的系统维护曾经是许多企业的噩梦。不仅因为停机时间长,更因为手动操作容易出错。然而,随着自动化工具的引入,这一切正在悄然改变。本文将探讨自动化在IT运维中的重要性及其具体应用。
在当今信息技术飞速发展的时代,企业对系统的稳定性和效率要求越来越高。传统的手动运维方式已经无法满足现代企业的需求。自动化技术的引入不仅提高了运维效率,还显著降低了出错风险。本文通过几个实际案例,展示了自动化在IT运维中的具体应用,包括自动化部署、监控告警和故障排除等方面,旨在为读者提供一些实用的参考。
|
2月前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
【10月更文挑战第1天】智能化运维:机器学习在故障预测和自动化响应中的应用
70 3