云上IT“新”治理:体系化助力企业上好云、用好云、管好云

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
函数计算FC,每月15万CU 3个月
应用实时监控服务-应用监控,每月50GB免费额度
简介: 随着云计算的普及,企业上云已不再是难题,如何用好和管好云成为新的挑战。阿里云通过Landing Zone和Well-Architected Framework(WAF)帮助企业搭建安全合规、可扩展的多账号环境,并提供涵盖安全、稳定性、效率、成本和性能五大支柱的最佳实践。其中,Landing Zone助企业构建隔离环境,内置财务管理、资源规划等模块;WAF则提供详细指导原则,确保企业在云上的应用环境安全、稳定、高效。此外,阿里云还推出了一系列工具和服务,如身份权限管理、配置审计、成本分析等,助力企业提升云治理成熟度。

一、云上IT治理的新挑战

1.云计算采纳阶段的变化

首先展示部分数据,因为观点表达需要数据支撑。左侧数据源于公共云采纳报告。该报告将云计算采纳分为博权阶段、begin阶段和advance阶段,分别代表企业对云的不同态度,如观望、advance是深度拥抱和深度应用。从报告可知,随着时间发展,博权阶段近乎消失,多数企业进入advance阶段。在五年前我们讨论的是什么是云,云是看不见摸不着的,是虚无缥缈的。但现在这表明云已不再是问题,新挑战在于上云以后如何用好云、管好云。另有fly star报告,调研700余家企业,其中79%为千人以上规模企业。报告总结上云后企业客户开发者关心的问题,涵盖云上安全、如何更好体系化地使用云以及云上成本和治理。这体现出云虽不再是问题,但用好和管好云成为关键。


2. 云的优势与带来的挑战

在此基础上,做了两部分总结。第一部分解答为何云不再是问题,第二部分说明新问题产生的缘由。首先看云的优势,云被各行各业拥抱的关键主要包括以下几点:其一,资源弹性供给且全球可获取,无需长期规划使用IT资源,它是随时随地可以进行弹性供给的资源。且供给范围为全球;其二,产品组合丰富多样,不像过去需不同供应商提供数据库、计算和存储等供应商,但是云有iaas、paas、SaaS、maas、 AI大模型,有丰富的云析产品组合;其三,云不再用简单的方式去产品化,而是不断地从产品化到服务化再到自主化进阶,可自助完成能力搭建与应用;其四work from ever where,上云后工作不受地域限制,只要有网络即可办公。这些优势基于传统的RG。


但是云的这些优势也相应带来一些挑战。总结如下:其一,安全方面,IDC时代以网络为安全隔离边界,网络内为内网,是好人。网络外为外网,人员不确定。云时代则以身份为新边界,公司内部员工有做这件事的权利,这就是新的边界。只需要这个身份就可以在任何地方登入。所以在云的时代从以网络隔离变成了以网络加身份为隔离。身份变成了公有云的安全基石。我们会遇到一些身份没有管理好而导致泄露的安全问题。其二,资源问题,云的效率是弹性供给的,但可能导致管理和秩序问题,因过于灵活可能失控,就像车辆有刹车才敢快开,当你有一定风险的时候就开的慢,所以效率的安全是一个平衡,需平衡效率与安全;其三,配置管理,云面对所有行业、不同客户,产品配置灵活,即可以面向个人开发者,比如大学生,或者世界500强,比如阿里云,以计算为例,个人用户和阿里云这样的企业云用对计算的要求不一样的。所以在云的视角,我们供给的任意一个产品配置丰富,产品服务企业若不按管理要求配置,可能出现问题;其四,全球化带来合规和监管挑战,尤其对于承载IT核心资产的云。阿里云和客户都需重视云上的IT管理和治理,良好的IT管理才能充分发挥云计算竞争力,促进业务发展。

 

二、Landing zone和well architected framework

1.Landing zone 的定义与作用

基于这些挑战,阿里云给出答案。五年前开始思考云及阿里云自身能做什么2021年发布云采用框架白皮书不断在此领域耕耘白皮书与信通院联合发布。白皮书发布后,2011年正式发布landingzone能力,解决企业先搬业务还是先搭建云上登录。截至目前,landinhgzone已服务全球约300多家大型企业。随着发展,到2020年有众多生态伙伴共同学习。2023年一方面解决上云问题,另一方面advance基于云上客户面对的不是上云,而是管理云,所以我们发布云卓越框架,虽然发布时间不长但已经服务1万5000多家客户,表明客户想法与我们一致


简单介绍的landinhgzone。其定义为在阿里云上搭建上云框架,助企业搭建安全合规、可扩展的多账号环境,从企业角度理解,是在云上搭建隔离环境,按业务和部门要求隔离。该框架不包含业务数据,最基础的框架,涵盖财务管理、资源规划、身份权限、审计、安全防护等八个模块,是公司在IT管理和治理上需内置的基线即管理要求,治理要求,先内置再搬迁默认满足要求Well archi它是一组指导原则和最佳实践,助企业在云上构建安全、稳定、高效的应用环境。


2.Well Architected ftamework的概念

Wellarch相对原来仅有五个支柱,分别是安全稳定、效率、成本性能,这些词汇通俗易懂,解决基本问题。要把云问题解决好,作为一个云用户或者企业角色者关心的是这些。只有确保安全确保稳定,业务才能进行可持续的发展。landinhgzone为例,搭建安全合规、可扩展的多端化环境后,软件有一个通产的问题就是描述的很好但是看不见也摸不着。搭建好以后就符合了企业管理的视角。可完成云上统一的多账号管理和财务管理,因为一般的企业会涉及不同的应用。不同的子公司。需要给每一个子公司权限进行业务流通。所以在landinhgzone这个框架下可以将财务管理先搭建好,子公司再进行购买资源就不需要跟阿里云谈deal,在同一结算工作下就可以完成这分工作。包括简化身份管理,比如我们在各个平台都注入了账号,每个app密码都比较复杂,我们希望在云上不需要这样,而是以企业的账号直接登录阿里云,即单点登录sso,这样在阿里云上就不需要记住任何账号。如果在企业内转岗或离职,阿里云上的账号自然也就消失了。这就是统一的身份管理。包括统一的企业组网。希望将核心应用放在核心的账号上,包括全面的安全防护和合规规则,以及可扩展方向的快速搭建。其设计原则是业务上默认隔离有限打通,比如开发环境和测试环境是隔离的。治理上集中管理,可以匹配供四数据管理的结构,将安全能力内置到框架内。

 

三、well -architected framework 5大支柱

1.安全支柱

接下来基于多年服务介绍well arch云卓越架构。从名称上,抛弃华丽辞藻,回归本质的安全、稳定、效率成本性。每个支柱下都有对应解决方案。这里产品与用于治理专场的区别在于,产品更多介绍新功能和性能,而治理专场更多考虑对企业和开发者的意义。例如在身份权限方面,要考虑如何管理人员身份和权限


下面简单介绍每个支柱。首先是安全支柱,身份凭证管理是当前安全关键。公有云身份是基石安全知识,比如黑客不是攻击进来的,而是登陆进来的。2024年一组数据显示,68%的恶意攻击是非人为恶意因素导致的,38%的泄漏事件是凭据导致的,77%的被盗的这把钥匙P被应用在应用程序的攻击上。针对此情况,分为身份与据和权限与管控两部分处理。在身份与凭据这一块,今年进行重大安全能力升级,包括默认强制多因素认证mfa 在登录时除密码外还需加一个认证因子、手机或其他。多因素叠加,每一个因素丢掉的概率显著降低。


还进行默认禁止两年闲置的AK和控制的登录密码的禁用,以及AK的网络防控。在权限这一块,按照最小化全线的原则进行几个新能力发布,包括授权策略的缴验、全线审计审计权限是否过大需要写入OSS但是却给了读取SOS的权限包括有无闲置权限,赋予这么多的权限是否有些权限并不会用到,还包括跨账号的分析等这是阿里云在整体身份能力上的升级。此外,主推用临时凭证替换长期访问凭证,用STS Tokoen 临时凭证,临时凭证有效期按小时计,可在任何场景下替换长期钥匙。比如在ECS上,function compete 上或者COR MAX COMPUTE 上,在任何一个平台阿里云都有零时凭证换取长期钥匙。这是安全专场的开头,9月20号下午有两个论坛,一个是身份,一个是权限,将更深入探讨此块内容,包括深入理解阿里人的身份体系构建,防止凭证泄露的十种方法,安全容器的最佳实践,权限体系,以及如何在阿里云上实施最强化权限等内容。


2.稳定性支柱

稳定性支柱方面,分享一个案例是风险检测。由于云的配置灵活,不同配置对应不同成本和可用性,很难有一种配置成本最低且可用性最高。这里有一个配置审计服务,可以审计云上开通资源的各种配置情况,比如ECS是否单口音去部署的,OSS是单可用去部署的,或跨多AZ部署的,以及ECS有没有开通释放保护好,IDS是否一键就能把它删掉还是开启了释放保护等。从容载容拓容量变更监控到不同领域配置审计都可以做对应审计,基于审计和告警,可以根据业务做出判断。今年云安全联盟的2024年报告中,错误配置是第一名的安全和稳定隐患,这些都在稳定性支柱里有对应的能力。此外,还有全站的可观测,包括采集哪些核心指标,哪些链路需要tracing,哪些日志做监控报警等,阿里提供了从监控的数据采集到日志的完整产品化能力,包括开源的普罗米修斯、自己发布的arms和大家可能每天都在打交道的SOS等,这些能力构建了一个全站可监控的体系,只有知道问题所在才能改进,把系统变成一个白盒。


3.效率支柱

效率支柱方面,因所有能力最终由开发者使用,无论是个人开发者还是企业开发者,站在开发者视角做了很多工作。首先是面向开发者的体验提升,阿里云一直与企业的应用系统和其他运维系统做深度集成,在这个过程中涉及研发和开发。过去不断提高API、SDK和命令行工具等能力,今年又做了一些能力提升,我们有一个API门户,比如将通益大模型的能力引入到开发者门户,阿里云云上的API很多,当我要做一件事的时候需要决定使用哪个API,意味着可以用资源语言的提出询问想要做的事情,如生产一台ECS,就能得到阿里云API的代码,这个能力也集成在阿里云开发者之中。还把开发者门户的整个完整功能集成到了IDE里面。此外,直接在jet bringts插件里完整的阿里云面向开发者的能力全部集成,不需要跳转出IDE就能完成阿里云的集成和开发。效率支柱这一点除了我们自己的工作以外还与业界的开源生态系统融合,像terraform,和我们做了深度的融合,海外客户对这一块的拥抱度非常高,国内拥抱度也在缓慢提升为了降低国内拥抱门槛,为了让大家能从最简单的开始适用,做了terroform开发者门户,从基础开始,把阿里云的teleform能力快速使用起来。类似于c++,只有理解了holo work之后才能了解它是如何运作的, 降低学习门槛,有同学做了terroform快速入门手册,把过去的经验都写到了里面,做低学习门槛。


4.成本支柱

成本支柱方面,成本是大家都关心的问题。过去几年不断打造能力,如果把一个东西做成黑盒,就不会是长久的生意,基于此,我们不断的把能力打扎实,今年做了一个成本高级分析能力,希望把成本能力打开,让大家看到每一分钱花在每一个业务上以及利用率。对于新的计算界面,如ACK,把成本能力直接做进去,因为我们是先做计算,再把成本叠加进去,在做ACK的成本能力问题我们直接把成本做进去,所以我们做了ack的finops套件,从一开始生产ACK标签能力,这种分类能力全部都内聚起来,当使用ACK时,有相应的finops套件,可以分析是一脉的而不外挂的插件。有一个成本的管理专场,有来自阿里、客户和宝马、想到等企业的人员,一起探讨云上的成本现状和精细化成本管理。


5.性能支柱

基于上述内容,我们和信通院一起做了一件有价值且持续的事情,就是制定了一个行业标准——企业用于治理财政部的标准,信通院会做更深度的分享和解读。希望通过这个标准提升国内用于管云的水平。在阿里云上,把能力工具化、产品化,将刚才所说的可以标准化的能力做度量,放在教育治理中心的产品里面,有很多可衡量的内容,比如是否开启长期密钥,是否OSS没有开启发布容栽等。

 

四、企业用云治理成熟度模型

深知此事靠阿里一家做不好,找到了很多同行者,第一批是客户,阿里云与客户搭建了高度的共鸣。第二批是客户体系庞大我们需要生态伙伴,大家一起打磨云作业框架和用于治理成熟做这样的一个模型。在这个过程中,有一个严格的考核,从报告的设计到模拟、实施、实操和验收,完整流程走完达到标准的伙伴才是合格的。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
打赏
0
5
6
0
315
分享
相关文章
阿里云峰会发布《Well-Architected云卓越架构白皮书》:助力企业用好云管好云
6月1日,2023阿里云峰会·粤港澳大湾区在广州举行,阿里云智能开放平台总经理圭多在会上发表了「构建安全、高效、稳定的卓越架构」的议题演讲,并正式发布《阿里云卓越架构白皮书》,为企业用云管云解决方案和产品化落地提供指引,助力企业构建更加安全、高效、稳定的云架构。
7037 1
数云运维总监陈延宗:基于阿里云计算巢,数云CRM一键云上交付
本文是数云上架到计算巢的方案介绍,原文请查看:https://mp.weixin.qq.com/s/LY9wa5sb7rupVtTs48tsEg12月21日,在弹性计算年度峰会上,数云CRM运维总监陈延宗发表了主题为《计算巢最佳实践--数云CRM一键云上交付》的演讲,介绍了数云CRM在阿里云计算巢平台的最佳实践。 图:数云CRM运维总监陈延宗01 传统交付的四个痛点 数云目前已发展成为国内领先的全
632 0
数云运维总监陈延宗:基于阿里云计算巢,数云CRM一键云上交付
深入痛点了解无影云电脑应用价值
随着我国信息化基础设施建设的不断发展,公司在生产、经营和管理流程中对信息系统技术愈加依赖,而员工办公终端的规模也随之不断的扩大,在员工行为管理、运维成本、能耗及信息安全等方面存在的问题日益增多。当下,数据存储低效、可靠性保障难以实现、缺乏移动办公条件等弊端也越来越让人头疼。在保证正常业务活动的同时,落实公司集约化管理要求,全面拥抱数字化转型成为了越来越重要的议题。无影云电脑可以解决企业和团队痛点,或将成为今后工作业务新增长点的基础设施。
深入痛点了解无影云电脑应用价值
阿里云混合云建管用一体化探索实践 助力政企从容应对数字化转型难题
专有云已从概念走向落地实践。由云计算标准和开源推进委员会举办的“专有云技术主题沙龙”,除对专有云标准体系等进行解读外,还邀请了业内大咖倾情分享,共同探索专有云未来发展趋势。
570 0
阿里云混合云建管用一体化探索实践 助力政企从容应对数字化转型难题
阿里云首家通过《可信云·云成本优化工具能力要求》评估,云原生企业 IT 成本治理方案助力企业 FinOps 落地
5 月 19 日,由中国信息通信研究院(以下简称“中国信通院”)和中国通信标准化协会联合主办的“2022 云管和云网大会”通过线上直播的形式成功召开。会上发布了《可信云•云成本优化工具能力要求 - 第1部分 原生工具》标准及首批评测结果。
阿里云首家通过《可信云·云成本优化工具能力要求》评估,云原生企业 IT 成本治理方案助力企业 FinOps 落地
阿里云云治理中心正式上线,助力企业快速云落地
2021年11月1日,阿里云"云治理中心"(Cloud Governance Center)产品正式上线,云治理中心是基于企业IT治理的最佳实践,帮助客户快速搭建业务上云的标准Landing Zone(上云登陆区),实现各组织和团队在云上的良好协同、降低风险和提升效率,最大化地发挥云计算所带来的价值。
496 0
阿里云云治理中心正式上线,助力企业快速云落地
从毛坯房到精装修,阿里云企业IT治理样板间助力云上管控和治理
随着近几年云的高速发展,云原生的概念深入人心,越来越多的企业选择上云实现数字化转型。无论是将传统应用搬迁上云,还是基于云原生技术构建新的产品和业务,企业都期望利用云技术低成本、敏捷的进行业务创新,实现上云价值最大化。 企业在上云之前,不只是将业务应用适配云环境,更重要的是需要给每个即将上云的业务规划和构建一个安全、可控、合规的「登陆区」(Landing Zone),让业务研发人员只用关心自身业务,大胆的依托于云上的能力快速进行业务迭代和创新,兼顾「效率」与「可控」,才能实现上云价值最大化。
从毛坯房到精装修,阿里云企业IT治理样板间助力云上管控和治理

云原生

+关注