FinOps对我说是大道至简做成本优化的洞察力

简介: FinOps说了很多理论和体系,输出了课程,今天我稍微整体回顾了全部过程后,还是有些担心,担心大家在看过了高级的体系框架,听了一些我在分享中主客观的表达,还是会回到一个出发点的三连问:“我该如何开始?怎么进行交付?怎么运营?”

说了很多理论和体系,输出了课程,今天我稍微整体回顾了全部过程后,还是有些担心,担心大家在看过了高级的体系框架,听了一些我在分享中主客观的表达,还是会回到一个出发点的三连问:“我该如何开始?怎么进行交付?怎么运营?”

1.png

 

回顾了下之前做的一些小而美的方案输出,还是一种思路,这比较像我的风格~因为我们需要的是思路,不是需要解决问题的人(拿来主义)。至少在这里我比较希望大家这么思考,别把自己的高度做低了,也切勿把脑子的灵活度做懒了。

 

大道至简,大道理总是用一两句简单的话就能说明白的,好比真传一句话,假传万卷书,这种社会现象充斥着我们日常工作生活,还有更重要的是影响我们近乎正确看待一件事物的‘出发点’。自从2022年开始,成本优化(云财务管理)等近义词就热闹了起来,好似一个可以改变世界的新文明被发现了一般,这里没有贬义的口气。而正是这般热闹的现象里,我差点被影响到。

 

因为总是有些自成体系的前辈、后辈在看过一点点FinOps社区内容后,开始布道,大致的几个内容方向是这样:

1、合理规划实例选择(使用竞价实例)

2、利用云平台的伸缩方式

3、动态检测与降配

4、避免不必要的浪费

。。。。

 

其实我稍微复盘了下个人的内容,我可能是没法写出这样的文字,因为片面的总结了一些个人所知所得,除了想表现佐证自己的能力外,更多的是对这个社区的敬畏之心不够。

 

我们从成本管理的视角来分析,首先第一件事情是要做什么?成本的识别,那成本的识别第一步做什么?给运行的各种云服务打上TAG以及分组

 

2.png

 

纵观各大云厂商关于云成本方面的知识体系,以AWS为表达,在成本优化的文章里,最早的cost optimization 系列文章能追溯到2013年,而这里面第一件事就是教用户合理使用TAGCOST Tools

 

国内2022年以后的重视,这也是一种进步,这里引入一张图,大家看看这种体验如何?

3.png

notesGoogle的在compute dashboard上,直接会体现recommendation vm size,即:这就是我在分享里提到的right resizing策略,也是6R策略中我重点分解的。不过请注意,任何一家公有云厂商都没办法在线状态下完成resizing的动作,必须reboot

 

顺着聊,reboot这个动作会产生多少影响?(业务连续性治理体系里的故事)我想这可大可小,也许只有运维工作者才能理解这里面的浅深。

 

4.png

 

 

所以作为读者多少能感受到我对国内这种断章取义式的发声的担忧,因为我们的圈子是封闭的,搜索面也是封闭的。这种影响会直接带来一个错误的认知根。

 

好了,我尽量克制自己,毕竟要做一个清醒的人很难立得住人设,又或者说尝试叫醒圈子里的朋友的成本极大的。大可不必去试着去做,但是这里从学习积累的维度要分享的关键,就是要让大家理解不要关注速成、价值转述、能力bypass。这些都是一个人走向浮躁的特征,非长期主义的工作者~如果你正在靠近这个特征,如果你愿意,可以尝试调整了下。

 

因为有节奏的慢,就是快。有时候你习惯了快,就是慢。这不是24个月内能反思的,而是36/48个月才能感知到。

 

5.png

 

————————方案构成“骨架”

回到今天的主题,我们做云的成本优化第一步,一定要回归到本质问题——我能对哪些做优化?以一个简单的业务背景来分析和推进。从两个维度着手:理论可优化空间和实际可优化空间

1.在传统应用(三层allinone)的云部署环境里:

1.1 可研究降本空间来自于:

核心成本点位——云服务器(CPU/RAM/HDD

配套成本点位——网络资源(IN/OUT

1.2 实际可优化空间来自于:

配套成本点位——网络资源(IN/OUT

 

2.在接近云原生部署的解耦的云部署环境里

2.1 可研究降本空间来自于:

核心成本点位——云服务器(CPU/RAM/HDD

付款方式点位——按量/包月

配套成本点位——网络资源(IN/OUT

配套成本点位——其他paas服务

 

2.2 实际可优化空间来自于:

核心成本点位——云服务器(CPU/RAM/HDD

付款方式点位——按量/包月

 

为什么会有这样的结论,我道明下原因。在成本优化项目里,必须要面对三个大问题。

第一个大问题:预算成本的年评估(一次性年初预算投入评估)

问题1:一次性评估,后半年增长,预算超,有背书风险

问题2:合同新增或修改,也是企业技术部门比较想避开的点(除非一开始签框架,但也是接近总包做法)

第二个大问题:预算过半的变动难

问题1:对于技术部门评估技术,这不难。但退费和按量产生的预测出现变动,无科学合理的纸质背书,换句话说:“优化的结果,从内部来讲无人保证”

问题2:技术团队无责任关联成本使用,陷入降本就是’找事‘的责任旋涡。

第三个大问题:业务影响范围面广

问题1:从外部的服务团队能保证,但务必会涉及我说的reboot,时间可能就变相拉长了交付期。几乎等同于迁移后的报障问题。(大家或多都了解,资源缩减对应用资源占用会造成一些影响)

 

那对于FinOps这件事情来讲,它核心的价值依赖高度开放的工作文化来讲的,是有价值。但水土不服的原因,也许就是以上我提到的这几点,所以要想做,就得从最开始做,或者途中小范围试点做。这样避雷的效果会更好。

 

切记太关注如何’炫技‘,这是不负责任的(不看业务)典型特征。至少在很多互联网的团队里,这些炫技就是’笨蛋‘的行为,职业生涯经常做过山车,没办法做到削峰、平谷。如果避雷,就是用大道至简的一句话解释:“明白了压力在哪,你就知道如何投入资源”。做MSP公司,知道89101112自然月份项目多,招人也大都是在这些日子。那从人力的维度是不是尽可能的在降低人力的闲置率。

 

类比到云服务的投入上来说,我知道了压力在哪里?我改在哪个地点(时间)放大负载(扩容)是不是也很清晰了?没错,就是这样。压力在哪,扩缩容就在哪!

 

聊个具体的工作例子,容器集群的用例,背景情况~

  • 生产环境是100%跑在公有云上
  • 业务遍布世界各地,在新加坡、印度、拉美和国内。且国内多个集群跑在不同的云厂商上,这就决定了我们的所有方案都必须是通用的
  • 流量比较规律,高峰低谷也比较明显(流量特征决定预测的预测效果)

 

优化对象定义:

  • 云服务器采购成本优化
  • 提供清单
  • 服务器利用率优化
  • 提供performance

 

优化手段界定:

  • 容器集群技术(HPArequest/limit
  • 分析已有yamlrequest/limit的设定根据,运行日志
  • 合理性分析
  • 产品购买方式
  • 提供预算分摊模型(总预算/12
  • 提供支付方式和支付记录

 

怎么干?

  1. 基于流量特点,采用二八原则。20%固定采购(包年包月)80%动态采购(payasyougo),匹配的采购策略——saving plan(节省计划)+竞价实例
  1. 成果:follow traffic feature 解决 over provision 静态规划
  1. 基于HPA集群特征,参考业务架构无损的设计,划定特征①的扩缩容时间窗口
  1. 成果:使用limit/request控制20%负载和80% 动态调度
  2. 成果:不断基于历史数据,计算出业务的最优匹配规则(算法)

 

注意事项:

  • 动态调度背后的资源,全使用竞价(需要关注随时中断实例的风险)
  • 调整策略resizing,就是关心成本大头(云服务器,同样担心和上面一样)

 

6.png

 

这时,大家可能会问,老师你不是说要先识别成本嘛,为什么直接开干了?其实不然,这类场景就是我们直接上项目的处境。如果按照阶段来说明STAGE 1past) ———STAGE 2 in process)———STAGE 3feature)。

 

我们一般都在STAGE 2in process) 状态,因为客户找到你的时候,多数情况是在STAGE2的“运行状态”中。所以识别的空间肯定是有的,但不一定够。在此用例中就是这样~客户已经基本确认了几个方向的事情,我们直接进入主题并展开细节讨论即可。

 

即核心放方案思维就是上面这部分的描述,不多。但就是成本优化的第一件事情,但这是在全面理解了FINOPS的工作框架后,直接有思路的进入状态——直接开场行为。这是成熟度把握的问题,而不是跳跃成熟的学习,直接照搬看似成熟较高的“招数”来侃侃而谈。

 

算是一气呵成,中间接了个电话,确实有些情绪在里面,请大家客观阅读理解(吐槽)

 

 

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
4月前
|
运维 监控 安全
自动化运维:提升企业IT效率的秘诀
在数字化浪潮不断推进的当下,企业对IT运维的要求越来越高。本文将深入探讨自动化运维如何成为企业提升IT效率、确保业务连续性的关键策略。通过分析自动化工具的应用实例和统计数据,我们将揭示自动化运维在减少人为错误、缩短故障恢复时间以及优化资源配置等方面的巨大潜力。文章还将讨论实施自动化运维的挑战与对策,为企业提供一条明晰的自动化之路。
|
3月前
|
运维 监控 数据安全/隐私保护
运维自动化:提升企业IT效率的关键
【8月更文挑战第18天】在数字化时代的浪潮中,企业对于信息技术(IT)的依赖程度日益加深。高效的IT运维成为支撑企业快速发展的基石。本文深入探讨了运维自动化的重要性,分析了其在现代企业中的应用价值,并提出了实施运维自动化的策略与建议,旨在帮助企业提升IT运维效率,保障业务连续性和数据安全。
|
6月前
|
存储 安全 前端开发
SAAS解决方案深度剖析:适用场景、挑战与成本评估指南
SAAS解决方案深度剖析:适用场景、挑战与成本评估指南
209 0
|
存储 监控 架构师
十年业务开发总结,如何做好高效高质量的价值交付
软件交付是一个非常复杂的过程和体系,需要保障好每个阶段的质量和效率才能保障最终的质量和效率。本文将尝试从需求交付的前、中、后三个环节来阐述一下如何做高效高质量的价值交付。
142422 3
|
人工智能 自然语言处理 算法
newbing 提升小红书运营效率的3个应用方案
newbing 提升小红书运营效率的3个应用方案
96 1
带你读《阿里云卓越架构白皮书》——2、云上成本管理(1)
带你读《阿里云卓越架构白皮书》——2、云上成本管理(1)
203 0
带你读《阿里云卓越架构白皮书》——2、云上成本管理(5)
带你读《阿里云卓越架构白皮书》——2、云上成本管理(5)
173 0
带你读《阿里云卓越架构白皮书》——2、云上成本管理(7)
带你读《阿里云卓越架构白皮书》——2、云上成本管理(7)
211 0
带你读《阿里云卓越架构白皮书》——2、云上成本管理(8)
带你读《阿里云卓越架构白皮书》——2、云上成本管理(8)
171 0
带你读《阿里云卓越架构白皮书》——2、云上成本管理(4)
带你读《阿里云卓越架构白皮书》——2、云上成本管理(4)
172 0
下一篇
无影云桌面