架构师工具箱:Well-Architected云治理提效实践

本文涉及的产品
应用实时监控服务-应用监控,每月50GB免费额度
云原生网关 MSE Higress,422元/月
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 本次分享基于阿里云Well-Architected Framework的最佳实践案例,涵盖企业从上云到优化的全过程。安畅作为国内领先的云管理服务提供商(Cloud MSP),拥有800多名员工,其中70%为技术工程师,为企业提供架构安全、数据智能等技术服务。内容包括Landing Zone与Well-Architected的关系、企业云治理现状及需求分析,重点探讨了安全合规、成本优化、资源稳定性和效率提升等方面的最佳实践,并通过具体客户案例展示了如何通过自动化工具和定制化解决方案帮助企业提升云上业务价值。

本次将分享基于阿里云Well-Architeched Framework做的最佳实验,其分享目的是在企业过程中做的实际的落地案例,让企业从各个方面,包括从时间成本的投入的降低或业务价值的提升。

分享几个部分的内容,包括对于行业的理解,以及在实际治理过程中的最佳实践。

 

一、关于安畅

1.安畅概览

安畅是一家国内卓越的云管理(Cloud MSP)科技公司,主要为全球范围内中大型企业做云上的技术服务,包括技术的架构安全,数据智能以及应用等方面。安畅的总部虽然在上海。但是在北京、深圳、西安这些大城市都有安畅的交付中心和技术人员,能够服务到在全国各地,包括在海外的一些客户,安畅公司大概有将近800人,其中70%以上都是技术工程师。并且这些技术工程师都覆盖在这些领域中。

 

二、云用户现状

1.Landing Zone和Well-Architeched关系

这一部分是通过专业的第三方报告和服务的一些客户,对WA领域中的现状来做一个实际的分享。

(1)Landing Zone

从2021年开始,阿里云推出了Landing Zone解决方案,视频中的图片是基于Landing Zone和Well-Architeched 做的关系图解。从企业上云开始,就要做Landing Zone,Landing Zone包含了资源的规划、财务、网络设计等八大模块。这是企业上云前做的前置动作,它是不关系于业务或应用的基础框架。


(2)Well-Architeched

Well-Architeched 包括稳定性、安全、卓越运营成本合规和高效性的任务和方面,它其实是从1到100的一个过程,是需要结合业务应用来做持续的优化,这是我们对于Landing Zone和Well-Architeched的了解。


2.企业实践现状

这一部分引用了阿里云官方的云治理成熟度的报告,在报告中,展示了高成熟度企业和低成熟度企业在WA的5个支柱中的区别,可以看到,高成熟度企业和低成熟度企业有非常高的区别,比如在稳定性这里,有87%的企业用户在云资源层面可观测的建设程度是非常高的,包括安全合规、卓越运营、成本优化和高效性能都有非常大的差距。在不同领域中,其实它们都有做的不太好的地方,比如多账号体系下的统一的规划和运营,那么如何在这一方面做实际的运营,其实就是在给客户做实际服务过程中的价值体现。


3.需求发现

从cloud MSP视角,在2017年开始提供了云的托管服务,在服务的过程中逐渐体现出了客户的需求,会分为三个过程。

(1)“快速上云”到“云优化”

从云时代的初期,企业急于将现有的IT系统迁移上云,享受云计算带来的弹性,包括快速部署的优势。这就叫做隐瞒上云,即没有做任何的技术框架设计,就把原有的应用从IT1比1移到云上。随着上云的步伐加深,云上的资产越来越多,企业就会重视到整个的资源架构需要做一些优化,才能够做好持续运营。Landing Zone从2020年开始,有一个金融行业的客户,他就提出了要制定一个非常明确的云战略规划,来覆盖整个平台,包括架构、资源和安全等方面。从这个开始时候开始,安畅就开始给客户提供Landing Zone的咨询服务,包这几个大的基本模块。从21年开始,就有了一些基于人保或是个人数据保护法的安全要求,随着资源越来越多,云上的成本的降本内容、自动化,随着Transform的技术或自动化技术的应用,在云上的负载,如何通过自动化的方式批量的做日常的运营,这是我们对客户提供服务过程中所对应的需求的了解。


4.Cloud MSP拥抱市场变化

拥抱市场变化就是随着客户的需求来提供定制化解决方案。从2017年开始,提供了云的迁移和运维管理,从2020年开始会做一些安全的咨询,设计云上的架构,做持续的云上的安全运维。基于MLPS或GDPR安全合规的需求。在2021年两个比较火的话题是Landing Zone和FinOps。我们能提供具体落地的服务内容是基于云厂商提供的解决方案,从2023年作为首批阿里云Well-Architeched的伙伴开始做实际的客户的交付。最后在Well-Architeched中做了哪些内容呢?


5.客户实际更关注哪些问题

在前面讲了引用了一些第三方专业的报告和整个市场上Well-Architeched的现状。在给企业做客户的时候,客户究竟关注哪些问题?包括自动化等内容。上图是给客户提供的标准服务的服务目录,其中摘取了一些客户专注的重点。


(1)安全合规

云上的安全不是网络安全,更多是基于身份的治理。在这里会有一些程序的身份、人员身份的治理和实际的合规审计,从事前的预防、事中的监测到事后的追溯,这就是我们在企业做Well-Architeched服务的过程中关注的安全合规这一部分的内容。


(2)成本优化

成本优化的内容分为四个方面,包括成本可视化、账单分摊、未来预算的预测以及成本的降本。那么客户可能会关注这两个部分,第一个是成本的分账,第二个是闲置资源的清理、未来的预算的规划,这都会在服务的内容里。


(3)资源的稳定性

资源稳定性包括本身基础架构的稳定性,在实际运营过程中,对于资源本身或对业务本身的可用性做的规划。


(4)效率

如图,可以看到,整个多账号的体系标签、资源组资源的命名。在报告中,分享了非常多的内容和更多的效率,包括对性能做的压测或自动化技术的介入。但其实很多客户的基本的资源管理做的还是不够完善的,这也是Clo smays mi存在的价值。

 

三、经验分享

这一部分将分享在服务过程中所感知到的服务内容、对于行业的解读,总共分为五个支柱。


1. 安全合规(身份权限)

(1)权限审计

其实云上大部分用户还在使用RAM做云上的操作。但是授权还是基于产品或给他整个for ocseze的权限做管理,这里面其实不满足我们最小化的授权,那如何知道用户大概要赋予什么样的权限才是最合适的?传统的做法是问每个人大概要什么样的资源,需要什么样的权限,再给他赋予。阿里云RAM推出了一个功能模块叫权限审计,它是记录了用户历史6个月时间内所用到的资源、产品的记录。根据这个记录,就可以知道这个用户到底用了哪些产品,他大概需要哪些权限。这就避免了通过人肉的方式来获取用户需要什么样的权限,并且整个过程是非常可信的,因为有数据的支撑。


(2)人员身份的管理

在安全领域中,很多的安全事件都是由于人为的误操作导致的,所以在事前的时候会通过control policy来做一些控制。比如在这里面写了一个DEMO,当我们在删除主机的时候,就需要有MFA的二次认证才能删除,防止对线上的DEMO删除以后,导致业务会出现一些风险。


(3)密钥管理

基于Well-Architeched方案或FMS方案,对密钥做集中化的管理,然后做轮询,再对来源的IP做白名单的限制,降低自己对AK外泄所造成的安全问题,因为有一些客户他们的AK直接硬编码到我们的应用中,很多企业的用户他的AK其实是给对应的软件供应商去使用的,我们把AK分过去以后,就不用关心他具体做什么了,但是这一部分块就是缺失了管控策略在里面,所以需要用KMS或者是Well-Architeched方案来限制这部分事件的产生所导致的AK外泄和安全问题。


(4)多账号的管理

在前面的报告中和在客户的分享里面可以看到,多账号是需要用SSO和SSO来做跨账号的访问控制,要结合企业内部的个APP的身份来做。统一的管控。


2. 成本优化

成本优化共有四个部分,包括账单拆分、预算管理等一系列的普通的资源的承担。在客容器化分担的场景事件中,所有的工具都是来自阿里云原生提供的工具。包括ops is poro,它是放在集群里面并对集群里面所有的pod的CPU或内存的使用量做一个统计,统计历史一个月或是更长周期的使用率,乘以单位not成本,来推算pod实际对应的消费量。然后可以分摊到比如机群、命名空间、节点或应用维度做账单的可视化和拆分。第二部分是利用coord加上普罗米修斯监控,对机群服务里面的U内存的使用量做定义,然后描绘出它的资源画像,跟据实际给他分配的request需求做评估。,并描述出它最佳的资源画像,实现费用节省。通俗来讲,比如给他一个四核八G的配置,但实际上通过历史的监测发现它整个的用量并没有达到这么多,甚至是在30%以下。那我们给他做一个资源规格的推荐,推荐到最佳的规格方式,这样就可以降低整个集群资源用量的使用,就可以降低整个mca成本。


非ACK集群的优化,通过配置审计里面的闲置资源合规包来做检测。它可以覆盖到常见的如ALB、带宽、镜像、云盘、服务器或EIP网络等相关的一些资源,能够覆盖到对应这些产品上,它有一些官方推荐的规则,当然也可以根据自己的内容做规则的定义。通过资源的监测,康菲它可以实现自动化的持续检测,从而可以及时干预不必要的支出产生,实现云上成本的节省。


3.稳定性

它是根据config来做配置中心的巡检,它里面有非常多的模板,大概有500条。在给企业客户做稳定性的巡检时,都是基于企业内部的标准规范,或他们要遵守的外部的合规的标准,他们内部可能没有办法根据阿里云上的具体的某个产品的某个策略做配置,它有的只是一个标准的规范,那么我们就会列举出500条规则,哪些是跟你内部的规划是一一匹配的?我们就会做实际的规则的匹配。例如备份,企业内部的规范不会要求快照要备份,备份多久,只会说备份要保存多久时间。那么就可以根据这条规则来配置符合企业内部要求规范的策略。比如默认备份需要保留7天、30天或是每周备份、每个月备份等,它们都会做这样的一套规范。


4.卓越运营

对于云上,大部分企业客户还是用来做云平台、架构这种批量化的变更,那么整个IC,它是做资源编排的,我们用这套方案就是通过github的action+github构建一条流水线,并结合上方的一条审批流,所有的对于资源的变更、发布、修改或删除都要经过这三道流程Approve、Init/plan、Apply Destroy,这样就可以规避风险的产生。因为日常中在控制台做手动操作的时候,直接手动去点就可以直接实现,但在Terraform流程里面,加入了这样一套审批流程,就可以极大的降低因为人员误操作所导致的一些风险。因为有多人做管控,并且在im kram可以看到应用以后的结果。


5.MNC客户案例

以案例来分享SP在提供W服务过程中的一些经验。这是零售行业的MIC的客户遇到的问题,相对来说也比较典型。因为他们在云上,基本上百分之八九十的业务都部署在云上,并且也是多账号的体系。那么遇到的问题呢?第一个是资源标识不统一,即各个部门是独立管理的。第二个是人员角色比较多,有MSP、自己的内部的安全团队、运维团队和外部的应用团队等。包括成本管理复杂,因为他们整个云上的消费是由运维部门来承担的,即一个中心化的成本支出部门没有分摊到各个部门里面。最后一个是安全标准统一,因为它是所有的项目都分散在各个的账号里面,没有一个集中账号来做管理,这是他遇到的问题。其实只需要给他做一个基于Landing Zone加Well-Architected的架构,对以上所有的资源、账号做梳理。在最开始,做的就是资源组加标签加命名这几个内容。然后对所有的资源结合他的业务来做定制化的配置。将对应的标签和资源组给所有的资源打上标签,实现统一的用户管理。通过config配置规则来做持续监管。


第二部分是FinOps服务,在前面做好了资源的标签包括资源组,基于项目拆分账单和每个项目应用做预算,通过共享产品,包括防火墙,或是共享企业内部的服务,比如DS服务或是批量的补丁服务,来实现成本的节省。第三个是中心化的安全管理,通过自定义的config规则,下发到每个业务账号里面,包括统一的安全的运营账号,下发对应的安全规则,包括网络的管理、主机的管理、数据的管理等,这些都由安全部门负责。那么最后得到的收益是什么呢?通过几个数据来分析一下,第一个,做完这些以后,他们在云上发生的重大事件的数量、发生的未攻破的安全事件,这些安全事件都会被事后审计到,包括一些被前置操作阻拦掉的。第二个部分是他们原来在云治理中心的评分大概在60分左右,做完这一系列的动作以后,他们整个的智力评分会增加到85分,这个是最直观的。第三个是分服务带来的成本的节省,大概是在20万每年。如图最右边是作为MSP所获得的价值。第一个部分是通过自动化工具的引入,包括批量化的操作。因为整个业务负载是由安畅给他们提供云的管理服务,所以通过自动化的规则介入,我们对应的每个月投入的人一天大概减少了6人。这是作为SP视角所对应的守护,第二是整体的WA服务受到了客户的认可,所以在客户的服务范围、服务范畴增加了百分之50左右。这是一个比较典型的客户案例分享。

 

四、总结与展望

作为安畅的阿里云伙伴来谈一下未来围绕阿里云的WA的展望或设想。阿里云在持续的优化WA的解决方案,做了标准化的服务,就是在前面展示到的内容,提高了用户的语音的使用体验,那作为cloud MSP, 我们也结合了自身的服务能力,对整个服务目录做了一些优化。这些黑色字体,像数据安全、安全运营SOC服务、数据备份以及应用容灾等一系列的服务,是安畅结合自己的工具平台以及自己的人力推出的服务,并将这些服务放到整个WA的框架里面,然后提供定制化的服务目录给到客户。其实这一切的目的都是以客户的需求为导向,让客户提高云上的使用体验,为客户的影像业务创造价值,并提高用户的体验。

相关文章
|
15天前
|
弹性计算 Java 关系型数据库
Web应用上云经典架构实践教学
Web应用上云经典架构实践教学
Web应用上云经典架构实践教学
|
1天前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
3天前
|
运维 监控 安全
天财商龙:云上卓越架构治理实践
天财商龙成立于1998年,专注于为餐饮企业提供信息化解决方案,涵盖点餐、收银、供应链和会员系统等。自2013年起逐步实现业务上云,与阿里云合作至今已十年。通过采用阿里云的WA体系,公司在账号管理、安全保障、监控体系和成本管控等方面进行了全面优化,提升了业务稳定性与安全性,并实现了显著的成本节约。未来,公司将持续探索智能化和全球化发展,进一步提升餐饮行业的数字化水平。
|
21小时前
|
负载均衡 Serverless 持续交付
云端问道9期实践教学-省心省钱的云上Serverless高可用架构
详细介绍了云上Serverless高可用架构的一键部署流程
26 10
|
30天前
|
运维 监控 Java
后端开发中的微服务架构实践与挑战####
在数字化转型加速的今天,微服务架构凭借其高度的灵活性、可扩展性和可维护性,成为众多企业后端系统构建的首选方案。本文深入探讨了微服务架构的核心概念、实施步骤、关键技术考量以及面临的主要挑战,旨在为开发者提供一份实用的实践指南。通过案例分析,揭示微服务在实际项目中的应用效果,并针对常见问题提出解决策略,帮助读者更好地理解和应对微服务架构带来的复杂性与机遇。 ####
|
29天前
|
消息中间件 运维 安全
后端开发中的微服务架构实践与挑战####
在数字化转型的浪潮中,微服务架构凭借其高度的灵活性和可扩展性,成为众多企业重构后端系统的首选方案。本文将深入探讨微服务的核心概念、设计原则、关键技术选型及在实际项目实施过程中面临的挑战与解决方案,旨在为开发者提供一套实用的微服务架构落地指南。我们将从理论框架出发,逐步深入至技术细节,最终通过案例分析,揭示如何在复杂业务场景下有效应用微服务,提升系统的整体性能与稳定性。 ####
39 1
|
30天前
|
消息中间件 运维 API
后端开发中的微服务架构实践####
本文深入探讨了微服务架构在后端开发中的应用,从其定义、优势到实际案例分析,全面解析了如何有效实施微服务以提升系统的可维护性、扩展性和灵活性。不同于传统摘要的概述性质,本摘要旨在激发读者对微服务架构深度探索的兴趣,通过提出问题而非直接给出答案的方式,引导读者深入
45 1
|
28天前
|
Cloud Native API 持续交付
云原生架构下的微服务治理策略与实践####
本文旨在探讨云原生环境下微服务架构的治理策略,通过分析当前面临的挑战,提出一系列实用的解决方案。我们将深入讨论如何利用容器化、服务网格(Service Mesh)等先进技术手段,提升微服务系统的可管理性、可扩展性和容错能力。此外,还将分享一些来自一线项目的经验教训,帮助读者更好地理解和应用这些理论到实际工作中去。 ####
40 0
|
29天前
|
弹性计算 API 持续交付
后端服务架构的微服务化转型
本文旨在探讨后端服务从单体架构向微服务架构转型的过程,分析微服务架构的优势和面临的挑战。文章首先介绍单体架构的局限性,然后详细阐述微服务架构的核心概念及其在现代软件开发中的应用。通过对比两种架构,指出微服务化转型的必要性和实施策略。最后,讨论了微服务架构实施过程中可能遇到的问题及解决方案。
|
2月前
|
Cloud Native Devops 云计算
云计算的未来:云原生架构与微服务的革命####
【10月更文挑战第21天】 随着企业数字化转型的加速,云原生技术正迅速成为IT行业的新宠。本文深入探讨了云原生架构的核心理念、关键技术如容器化和微服务的优势,以及如何通过这些技术实现高效、灵活且可扩展的现代应用开发。我们将揭示云原生如何重塑软件开发流程,提升业务敏捷性,并探索其对企业IT架构的深远影响。 ####
46 3