一、云上IT治理的新挑战
1.云计算采纳阶段的变化
首先展示部分数据,因为观点表达需要数据支撑。左侧数据源于公共云采纳报告。该报告将云计算采纳分为博权阶段、begin阶段和advance阶段,分别代表企业对云的不同态度,如观望、advance是深度拥抱和深度应用。从报告可知,随着时间发展,博权阶段近乎消失,多数企业进入advance阶段。在五年前我们讨论的是什么是云,云是看不见摸不着的,是虚无缥缈的。但现在这表明云已不再是问题,新挑战在于上云以后如何用好云、管好云。另有fly star报告,调研700余家企业,其中79%为千人以上规模企业。报告总结上云后企业客户开发者关心的问题,涵盖云上安全、如何更好体系化地使用云以及云上成本和治理。这体现出云虽不再是问题,但用好和管好云成为关键。
2. 云的优势与带来的挑战
在此基础上,做了两部分总结。第一部分解答为何云不再是问题,第二部分说明新问题产生的缘由。首先看云的优势,云被各行各业拥抱的关键主要包括以下几点:其一,资源弹性供给且全球可获取,无需长期规划使用IT资源,它是随时随地可以进行弹性供给的资源。且供给范围为全球;其二,产品组合丰富多样,不像过去需不同供应商提供,数据库、计算和存储等供应商,但是云有iaas、paas、SaaS、maas、 AI大模型,有丰富的云析产品组合;其三,云不再用简单的方式去产品化,而是不断地从产品化到服务化再到自主化进阶,可自助完成能力搭建与应用;其四,work from ever where,上云后工作不受地域限制,只要有网络即可办公。这些优势基于传统的RG。
但是云的这些优势也相应带来一些挑战。总结如下:其一,安全方面,IDC时代以网络为安全隔离边界,网络内为内网,是好人。网络外为外网,人员不确定。云时代则以身份为新边界,公司内部员工有做这件事的权利,这就是新的边界。只需要这个身份就可以在任何地方登入。所以在云的时代从以网络隔离变成了以网络加身份为隔离。身份变成了公有云的安全基石。我们会遇到一些身份没有管理好而导致泄露的安全问题。其二,资源问题,云的效率是弹性供给的,但可能导致管理和秩序问题,因过于灵活可能失控,就像车辆有刹车才敢快开,当你有一定风险的时候就开的慢,所以效率的安全是一个平衡,需平衡效率与安全;其三,配置管理,云面对所有行业、不同客户,产品配置灵活,即可以面向个人开发者,比如大学生,或者世界500强,比如阿里云,以计算为例,个人用户和阿里云这样的企业云用对计算的要求不一样的。所以在云的视角,我们供给的任意一个产品配置丰富,产品服务企业若不按管理要求配置,可能出现问题;其四,全球化带来合规和监管挑战,尤其对于承载IT核心资产的云。阿里云和客户都需重视云上的IT管理和治理,良好的IT管理才能充分发挥云计算竞争力,促进业务发展。
二、Landing zone和well architected framework
1.Landing zone 的定义与作用
基于这些挑战,阿里云给出答案。五年前开始思考云及阿里云自身能做什么。2021年发布云采用框架白皮书,不断在此领域耕耘,白皮书与信通院联合发布。白皮书发布后,2011年正式发布landingzone能力,解决企业先搬业务还是先搭建云上登录区。截至目前,landinhgzone已服务全球约300多家大型企业。随着发展,到2020年有众多生态伙伴共同学习。2023年一方面解决上云问题,另一方面advance基于云上客户面对的不是上云,而是管理云,所以我们发布云卓越框架,虽然发布时间不长但已经服务1万5000多家客户,表明客户想法与我们一致。
简单介绍的landinhgzone。其定义为在阿里云上搭建上云框架,助企业搭建安全合规、可扩展的多账号环境,从企业角度理解,是在云上搭建隔离环境,按业务和部门要求隔离。该框架不包含业务数据,最基础的框架,涵盖财务管理、资源规划、身份权限、审计、安全防护等八个模块,是公司在IT管理和治理上需内置的基线,即管理要求,治理要求,先内置再搬迁默认满足要求。Well archi它是一组指导原则和最佳实践,助企业在云上构建安全、稳定、高效的应用环境。
2.Well Architected ftamework的概念
Wellarch相对原来仅有五个支柱,分别是安全、稳定、效率、成本性能,这些词汇通俗易懂,解决基本问题。要把云问题解决好,作为一个云用户或者企业角色者关心的是这些。只有确保安全确保稳定,业务才能进行可持续的发展。以landinhgzone为例,搭建安全合规、可扩展的多端化环境后,软件有一个通产的问题就是描述的很好但是看不见也摸不着。搭建好以后就符合了企业管理的视角。可完成云上统一的多账号管理和财务管理,因为一般的企业会涉及不同的应用。不同的子公司。需要给每一个子公司权限进行业务流通。所以在landinhgzone这个框架下可以将财务管理先搭建好,子公司再进行购买资源就不需要跟阿里云谈deal,在同一结算工作下就可以完成这分工作。包括简化身份管理,比如我们在各个平台都注入了账号,每个app密码都比较复杂,我们希望在云上不需要这样,而是以企业的账号直接登录阿里云,即单点登录sso,这样在阿里云上就不需要记住任何账号。如果在企业内转岗或离职,阿里云上的账号自然也就消失了。这就是统一的身份管理。包括统一的企业组网。希望将核心应用放在核心的账号上,包括全面的安全防护和合规规则,以及可扩展方向的快速搭建。其设计原则是业务上默认隔离有限打通,比如开发环境和测试环境是隔离的。治理上集中管理,可以匹配供四数据管理的结构,将安全能力内置到框架内。
三、well -architected framework 5大支柱
1.安全支柱
接下来基于多年服务介绍well arch云卓越架构。从名称上,抛弃华丽辞藻,回归本质的安全、稳定、效率成本性能。每个支柱下都有对应解决方案。这里产品场与用于治理专场的区别在于,产品场更多介绍新功能和性能,而治理专场更多考虑对企业和开发者的意义。例如在身份权限方面,要考虑如何管理人员身份和权限。
下面简单介绍每个支柱。首先是安全支柱,身份凭证管理是当前安全关键。公有云身份是基石安全知识,比如黑客不是攻击进来的,而是登陆进来的。2024年一组数据显示,68%的恶意攻击是非人为恶意因素导致的,38%的泄漏事件是凭据导致的,77%的被盗的这把钥匙P被应用在应用程序的攻击上。针对此情况,分为身份与评据和权限与管控两部分处理。在身份与凭据这一块,今年进行重大安全能力升级,包括默认强制多因素认证mfa ,在登录时除密码外还需加一个认证因子、手机或其他。多因素叠加,每一个因素丢掉的概率显著降低。
还进行默认禁止两年闲置的AK和控制的登录密码的禁用,以及AK的网络防控。在权限这一块,按照最小化全线的原则进行几个新能力发布,包括授权策略的缴验、全线审计,审计权限是否过大需要写入OSS但是却给了读取SOS的权限包括有无闲置权限,赋予这么多的权限是否有些权限并不会用到,还包括跨账号的分析等,这是阿里云在整体身份能力上的升级。此外,主推用临时凭证替换长期访问凭证,用STS Tokoen 临时凭证,临时凭证有效期按小时计,可在任何场景下替换长期钥匙。比如在ECS上,function compete 上或者COR MAX COMPUTE 上,在任何一个平台阿里云都有零时凭证换取长期钥匙。这是安全专场的开头,9月20号下午有两个论坛,一个是身份,一个是权限,将更深入探讨此块内容,包括深入理解阿里人的身份体系构建,防止凭证泄露的十种方法,安全容器的最佳实践,权限体系,以及如何在阿里云上实施最强化权限等内容。
2.稳定性支柱
稳定性支柱方面,分享一个案例是风险检测。由于云的配置灵活,不同配置对应不同成本和可用性,很难有一种配置成本最低且可用性最高。这里有一个配置审计服务,可以审计云上开通资源的各种配置情况,比如ECS是否单口音去部署的,OSS是单可用去部署的,或跨多AZ部署的,以及ECS有没有开通释放保护好,IDS是否一键就能把它删掉还是开启了释放保护等。从容载容拓容量变更监控到不同领域配置审计都可以做对应能力审计,基于审计和告警,可以根据业务做出判断。今年云安全联盟的2024年报告中,错误配置是第一名的安全和稳定隐患,这些都在稳定性支柱里有对应的能力。此外,还有全站的可观测,包括采集哪些核心指标,哪些链路需要tracing,哪些日志做监控报警等,阿里提供了从监控的数据采集到日志的完整产品化能力,包括开源的普罗米修斯、自己发布的arms和大家可能每天都在打交道的SOS等,这些能力构建了一个全站可监控的体系,只有知道问题所在才能改进,把系统变成一个白盒。
3.效率支柱
效率支柱方面,因所有能力最终由开发者使用,无论是个人开发者还是企业开发者,站在开发者视角做了很多工作。首先是面向开发者的体验提升,阿里云一直与企业的应用系统和其他运维系统做深度集成,在这个过程中涉及研发和开发。过去不断提高API、SDK和命令行工具等能力,今年又做了一些能力提升,我们有一个API门户,比如将通益大模型的能力引入到开发者门户,阿里云云上的API很多,当我要做一件事的时候需要决定使用哪个API,意味着可以用资源语言的提出询问想要做的事情,如生产一台ECS,就能得到阿里云API的代码,这个能力也集成在阿里云开发者之中。还把开发者门户的整个完整功能集成到了IDE里面。此外,直接在jet bringts插件里完整的阿里云面向开发者的能力全部集成,不需要跳转出IDE就能完成阿里云的集成和开发。效率支柱这一点除了我们自己的工作以外还与业界的开源生态系统融合,像terraform,和我们做了深度的融合,海外客户对这一块的拥抱度非常高,国内拥抱度也在缓慢提升,为了降低国内拥抱门槛,为了让大家能从最简单的开始适用,做了terroform开发者门户,从基础开始,把阿里云的teleform能力快速使用起来。类似于c++,只有理解了holo work之后才能了解它是如何运作的, 降低学习门槛,有同学做了terroform快速入门手册,把过去的经验都写到了里面,做低学习门槛。
4.成本支柱
成本支柱方面,成本是大家都关心的问题。过去几年不断打造能力,如果把一个东西做成黑盒,就不会是长久的生意,基于此,我们不断的把能力打扎实,今年做了一个成本高级分析能力,希望把成本能力打开,让大家看到每一分钱花在每一个业务上以及利用率。对于新的计算界面,如ACK,把成本能力直接做进去,因为我们是先做计算,再把成本叠加进去,在做ACK的成本能力问题我们直接把成本做进去,所以我们做了ack的finops套件,从一开始生产ACK标签能力,这种分类能力全部都内聚起来,当使用ACK时,有相应的finops套件,可以分析是一脉的而不外挂的插件。有一个成本的管理专场,有来自阿里、客户和宝马、想到等企业的人员,一起探讨云上的成本现状和精细化成本管理。
5.性能支柱
基于上述内容,我们和信通院一起做了一件有价值且持续的事情,就是制定了一个行业标准——企业用于治理财政部的标准,信通院会做更深度的分享和解读。希望通过这个标准提升国内用于管云的水平。在阿里云上,把能力工具化、产品化,将刚才所说的可以标准化的能力做度量,放在教育治理中心的产品里面,有很多可衡量的内容,比如是否开启长期密钥,是否OSS没有开启发布容栽等。
四、企业用云治理成熟度模型
深知此事靠阿里一家做不好,找到了很多同行者,第一批是客户,阿里云与客户搭建了高度的共鸣。第二批是客户体系庞大我们需要生态伙伴,大家一起打磨云作业框架和用于治理成熟做这样的一个模型。在这个过程中,有一个严格的考核,从报告的设计到模拟、实施、实操和验收,完整流程走完达到标准的伙伴才是合格的。