一、云成本管理的趋势和洞察
通过在服务客户的过程中,抽象出的解决方法和方案协助FinOps的落地,从这四个方面讲FinOps的最佳实践如何落地,第一个是云成本管理的趋势和洞察,首先云计算的核心的价值是高效、弹性可扩展,它的经营模式和使用方式是按需使用和按量付费,这和在传统的IDC时期用到的建一个机房的管理模式发生了巨大的变化,原来业务人员要买一个IT资源要建一个机房,首先业务是要提出诉求,财务采购运维和管理者联合决策,这个决策周期可能是一到两个月,决策之后供应商开始做交付,整个交付过程可能是半年,如果业务想追加一些资源,这时候可能又是六到八个月的周期,针对采购财务运维管理者的角色。
一般情况下,他们的协同一年发生一次到两次,但是阿里云改变协作模式,主要的原因是现在的业务有云账号之后,直接在云上开通资源,不经过采购财务的前置管理,所有的采购财务都变成后面跟着业务人员管理整个资源的使用,以及报销相关的内容。阿里云的交付模式发生巨大的变化,从原来的IDC交付硬件。软件方面就是单独买一个软件做拼接,云的模式是软硬一体交付的,它更多的交付的是一个服务,服务是在线持续化的交付,一直在更新迭代,云计算本身的灵活性一定会改变原有的IDC的交付方式,改变之后,它提供灵活的东西,它的管理难度就更高,所以它改变IT资产的管理模式,如果企业还在使用原有的IT管理模式管理云上的资产,这时它一定会产生资源浪费。
原因是一些业务没有成本管理,这个浪费的风险一定会有的。最新的行业报告表明,随着云计算的普遍使用,企业的用云支出的浪费现象非常普遍,如何有效的管理云上的成本已经成为企业最迫切解决的问题,这个问题的解决就是FinOps,它核心不是一套系统,它是一个管理理念,在这一套管理理念里面,它的核心是决策者一年共识决策一次,接下来就要成为常态化的决策机制,决策者的责任是共担的,对于成本管理、成本优化是整个组织的责任。所以FinOps的最佳实践强调的是运维财务团队、技术和业务团队要彼此的合作。成本节省要人人有责,因为覆盖的人员、涉猎人员是相当广的,针对这种情况,需要成立一个中心化的团队,持续的推广成本管理的重要性,做成本管理的核心提出是要用数据驱动、业务价值驱动的方式,FinOps核心还有一个观点是要灵活利用云上的成本管理工具,因为很多云厂商提供的原生的成本管理工具,它已经附带很多的治理和管理的经验,包括第三方的管理工具里面。
如果一个企业新开始做云上成本管理,建议是从供营商直接提供的云上成本管理工具以及第三方提供的工具着手。另外FinOps定义云上成本管理成熟度模型,主要分为三个阶段,第一个阶段是看清成本,第二个阶段是针对于一些成本找到优化的方式,直接把它优化执行掉,第三个阶段可以用一个平台承载优化的方式以及方法,把它沉淀到平台里自动化的运营。包括后续可以用单位的经济成本衡量成本管理,这是FinOps的方法论,针对方法论FinOps领域在过去一年有三大洞察,第一个洞察中大型客户,他们公司里面都有一些团队,或者已经成立一个FinOps的职位,专门用于云上的成本管理。通过FinOps基金会的社区的人员,情况的增长,包括从业者拿到的证书情况的增长,也验证和服务过程里面的一些数据是相吻合的,第二个洞察发现中大型企业的企业的上云成本的管理已经左移到上云的规划阶段,原来大家上云更多的是业务评估,评估结束后上云,发现成本管理不可控,已经是在运营维护阶段,现在随着云计算的普遍以及FinOps理念的普遍,发现中大型企业客户在上云之前就开始评估,防止上云之后到规划阶段的成本管理失控,左移到规矩阶段,这是第二个变化,第三个变化发现FinOps在很多大型企业已经成为一个常态化的机制,并且很多大型企业已经开始用单位的经济成本评估企业的成本管理,比如有的企业的主要的业务营销和交易,把它的交易的大模块换成交易的发生体量,比如每百万次的交易订单,它的IT成本作为一个衡量的指标,如果在成本优化的过程里面,比如五块钱百万订单变成三块钱百万订单,这就是成本管理团队管理的好。如果五块钱变成八块钱,这个成本管理团队就管理的不好,所以大企业已经把成本优化和管理作为常态化的机制开始衡量优化的标准,但是中小企业让企业接受FinOps理念领域再去做事情,以上是三个洞察。
二、FinOps的主要挑战
接下来看FinOps目前的主要挑战,根据FinOps基金会2024年调研1245个用户的调研报告,这1245个用户来自于全球各地,所属的公司的IT年支出成本平均是在4400万美元,这个调研报告是相当准确的,基于2024年的调研报告,看到现在FinOps的主要的挑战是围绕九个方面,针对这九个方面把它分成管理领域和技术领域,在2024年之前,管理领域是排在前面的,在2024年开始,技术领域已经排在前面,从这方面来证明FinOps的理念已经被很多公司在接受,另外可能和经济环境有关,着重降本增效的落地,针对现在遇到的九个挑战。
三、FinOps最佳实践篇-管理篇
接下来将从两个方面介绍在降本增效过程中成功的方法论,以及落地的实践的方案。首先从管理看实施FinOps可行的有效的管理方式。管理上主要是把FinOps的管理理念让使用云计算的公司领导层以及周边团队认可,因为云计算本身发生的巨大变化,只有管理才能够把成本管理好,这是它的核心挑战,在服务客户时,发现两个组织协作模式比较有效,第一种是中央集中的管理模式,这种游戏公司用的比较多,他的核心是业务团队,只负责开发业务。中央IT团队是负责运维安全、FinOps相关的所有都在中央IT团队,这个团队对应的权责是非常大的,他负责所有的产品成型之后的所有运营运维。这种适合业务稳定型的企业,包括产品比较单一的,比如适合游戏行业,另外是追求财务的流程标准化和规范化的企业,就是对财务合规、财务标准比较追求极致的企业。
目前阿里巴巴集团是用中心辐射管理模式,它的核心就是FinOps的中心管理团队,它主要的职责是制定政策,做相关的优化工具,以及推动有效的方法。这个团队研究出来方法之后发现可优化的点,根据这些工具和方法做任务分发,任务分发到业务团队,中心团队是不做具体的治理任务的,更多的治理任务是下发给业务团队,有业务团队的运维和FinOps相关领域的角色执行落地,中心运营团队主要是运营的职责比较大,这个团队的压力也会比较大,因为需要他有很强的协调能力以及价值宣导能力证明FinOps今天做的好与不好,以及每个业务团队红黑榜机制都要run起来。
这是模式的一个好的地方和不好的地方,它适用的企业主要就是复杂组织结构的,因为有很多企业的组织结构比较复杂,并且多元化的企业比较适合中心辐射管理模式,因为针对多元化产品的企业,通过中央集中管理模式对中央IT团队的要求是极高的,所以它比较适合中央辐射管理模式,另外就是创新与标准化并重的企业。建议都是用中心辐射管理模式,因为它毕竟比较灵活并且不会抑制创新,这是常见的FinOps组织的协作模式。
实施FinOps十的过程里面,正常的运营逻辑和实施方式,包括三部曲,首先建降成本,第二建体系,第三讲价值,首先要让大家看到管理是有效的,通过常年的积累,有很多资源是闲置或计费方式,是可以优化的,按照二八原则,很快就可以找到很多优化的资源,把它换算成年化价值跟领导汇报,汇报完之后告诉领导。如果不优化,结果是每年会有很多浪费,它是一年一年滚动且会增加的。今天由于做这件事情,比如十年将减少多少浪费,这是降成本,看到效果后,接下来是建平台,要用一个平台把降成本的方式全部沉淀到平台,平台建上后,它就可以自动分发治理,有了平台之后再讲价值,这就是有事实依据和未来,实施FinOps的三部曲首先降成本,成本、质量、速度完整的正三角是不可能的,但是这是做成本管理追求的极致,因为所有的业务在不同的发展阶段,它的要求是不同的。
比如说在刚开始起步的阶段,是追求的质量和速度,要先抢占市场,这时候成本是可以忽略不计的,可以不计成本抢占市场,等业务稳定,市场占有之后,所有的成本才会被逐步的拉出来,慢慢的形成一个正规的三角形,所以做成本优化的时候不要一下就想把三者平衡掉,因为难度是极高的,所以建议要顺应业务的发展。降成本首先建议先降运营成本,因为运营成本对业务是没有任何影响的,主要是通过比如测试环境,把它所有的测试环境的资源把标记出来,标记出来之后,可能有一些测试环境是非常高配的就可以先降配,这种也不影响资源。
另外优化购买方式,比如原来可能按量付费用的比较多,本来按量付费就比较贵。可以用一些节省计划,比如包年包月把按量付费替换掉,它本质上的资源是不受任何的影响的,对于业务也不会产生影响。释放闲置资源,生产环境利用率提高,这些都是运营上的降本的方式和方法,这些初见成效之后就可以推动技术降本。比如工作负载的调度降本,包括要用一些容器化产品重构代码,重构运维平台,这就是一些技术降本的手段,这是在降成本的一些方式和方法,针对建平台,在服务客户的过程发现有的客户可能就一个团队,忽然做成本优化,做完之后效果就很明显,开始要整个公司降成本,可能在短期战役的收效非常高。收效之后,这个战役战报就结束了。可能一年之后,因为人员在流动,所有的系统业务都在发展,发现成本又上去了,这就是因为没有平台沉淀降成本的方式和方法导致的问题,所以要建平台,主要是数据驱动的平台,不一定要把平台写的很复杂,另外所有的过程都是先止血后治理,因为所有的业务在治理的时候难度都比止血很大,因为业务在跑,要治理是很难的,但是止血是容易的,所以在流程上建议方式是先止血后治理,治理的时候一定要责任划分,因为只有责任划分到具体的人,这个人才会推动这件事情继续往前,这个是在流程治理上,另外就是可以组织经常性的分享。分享治理方法到同公司的其他团队一些启发,这些启发就可以形成逐渐的把分FinOps的文化推广起来,从原来是FinOps中心化的团队推动着业务团队。促使团队有自我的意识把成本管理好,这是FinOps价值宣导里面希望做到的核心,这是建平台。
另外建平台有两种模式,第一种就是建看板,它是在服务客户里面是比较常见的一种方式,因为一般情况下建看板就够,云计算厂商基本上提供比较多的工具,把数据吐给大家,大家基于数据建一定的看板,建完看板,只要能够发现问题,这些看板的自动循环就可以做起来,还有一些超大型的企业,他们是建平台的,因为阿里巴巴内部也是建平台的,原因就是平台原来就是有一套运维管理系统,这套运维管理系统上云之后,所有的都要和这套运维管理系统要兼容协同,协同的时候它需要本身有一个平台把数据接回去,有一部分工作量是必须要付出的,否则原有的运维流程都要改变,建平台一定要考虑投入产出比的问题,要看是否有比较大的团队,因为阿里巴巴集团大概是有大几百人的团队做整体的运维管理体系,云计算相关的成本管理平台大概都有几十人,所以评估ROI是否合理,以上就是从管理方面在实际服务客户的过程中的方式和方法。
四、FinOps最佳时间篇-技术篇
接下来从实践方式和实践技术上看,现在面临五大问题,针对五大问题讲阿里云提供的工具:
第一是减少浪费和未使用的资源,阿里云上是有很多的工具的,一个是配置审计,另一个是智能水位分析,配置审计的核心是找出闲置的资源进行优化,减少浪费,比如一些未绑定的IPEIP,包括闲置的ECS和 未挂载的磁盘,这些都是可以优化的点,只要找到对应的资源拥有者就可以优化。
第二是智能水位分析,它可以发现一些低负载的资源,根据负载的情况,可以找到低负载的资源,从而找到对应的业务团队进行优化,这是关于减少浪费提供的两个工具,官网有很多工具可以做资源减少浪费的发现。
第三个是基于承诺消费获取低折扣,因为阿里云已经提供相当丰富的售卖模式,节省计划的优化订阅,它主要是基于按量付费的场景,因为原有的按量付费。但是如果使用按量付费,它有比较稳定的使用,可能只是白天和晚上会有一些弹性,比如白天整个是要谈到每个小时消费一百,晚上可能谈到每个小时消费十块钱,这时候就可以选择节省计划,每个小时承诺十块钱,拿到比按量付费要低的折扣。针对这个提供智能化、自动化的优化方案,方式优化,建议在成本优化里面,费用与成本管理的成本优化里面提供工具,在这个里面可以直接点击立即优化,就可以看到优化后的效果,如果所有的资源是有按部门的,可能某些部门是需要优化,其他的部门不要优化的情况,也提供个性化的节省计划的测算能力,可以按照个性化的方式测算。
针对第三个整体的挑战问题,就是准确的预测支出,上云之后支出变得不可控,阿里云在上云前和用云中,提供多种的预测方式。首先在上云前提供TCO计算器,只要输入IDC相关的配置,就可以自动计算出在IDC期间所有的每年的消费情况,以及上云之后应该对应的配置,这个配置对应的金额情况、消费情况都会表达出来,整个测算方式提供三种。
第二个是在用云中成本分析工具,可以帮大家预测未来12个月的消费,比如有些公司要做预算,其实是要做明年12个月的预算,可以通过成本分析工具预测的数据,直接把它下载下来做微调,可能就可以成为明年的预算,这是关于用云中提供的一些工具,另外还提供预算监控的工具以及异常检测,预算监控是企业每年都会做预算,它的预算一般是按月去滚动的,可以把这个预算配到预算管理模块,再配到系统中面。配到系统后,可以配预警值,当每月的预算和实际资源的消耗发生变化时,会有预警给到相关的人员,这个预警和成本分析都是打通的,可以一键成本分析看成本到底是哪个业务部门发生的,另外一个就是异常检测,有一个智能化的算法,可以根据历史消费情况去预测未来的消费区间,当实际的消费和预测的消费期间不匹配的时候,即为异常,这个异常就可以帮助运维同学关注到底在使用过程中有哪些异常,就可以去做相关的治理。
第四个问题就是成本分摊,成本分摊有两个核心的要点,一个就是账单,如何把消费账单分到业务部门,第二个就是如何把消费和资源的使用要匹配起来,也就是运维的成本,阿里云针对独享资源,提供按业务单元拆分,首先就是运维针对资源可以打标,财务人员基于标签可以做财务单元,系统就可以把业务部门的分账分出来。第二个就是共享资源的公摊处理,有一些网络安全基建的费用,它是作为财务单元的公摊。阿里云提供三种方式,一种是自定义,第二种是平均,第三种是按照资独享资源的业务消费比例分摊,把账整个分到部门对应的账单里面,就可以把分账再拆到实际的消耗维度,比如包年包月和资源包就可以拆到实际的资源消耗上,资源消耗之后,这个运维就可以观测整个资源的成本消耗和波动情况,这是关于成本分摊提供的一些能力。
最后是自动化监控和运营,提供两种方式,一种是开箱即用的成本分析,另一种是高阶的自主分析。开箱即用的成本分析是预制在费用以及成本管理功能中的成本分析功能,它主要支持多个类型,一个是分账单的分析以及摊销成本的分析。它支持报告的下载以及分析的结果下载。如果阿里云提供的分析视角可能不注意完成业务的视角分析,可以用Max Computer+Quick BI的高级自助分析工具分析,现在在费用中心的成本分析中可以自助开通,开通后,阿里云会把账单自动投递到Max Computer中,这样就可以借助Quick BI工具,分析出想要的视角,下面的图是给客户做的通过QuickBI的分析视角图。