FinOps对我说是大道至简做成本优化的洞察力

简介: FinOps说了很多理论和体系,输出了课程,今天我稍微整体回顾了全部过程后,还是有些担心,担心大家在看过了高级的体系框架,听了一些我在分享中主客观的表达,还是会回到一个出发点的三连问:“我该如何开始?怎么进行交付?怎么运营?”

说了很多理论和体系,输出了课程,今天我稍微整体回顾了全部过程后,还是有些担心,担心大家在看过了高级的体系框架,听了一些我在分享中主客观的表达,还是会回到一个出发点的三连问:“我该如何开始?怎么进行交付?怎么运营?”

1.png

 

回顾了下之前做的一些小而美的方案输出,还是一种思路,这比较像我的风格~因为我们需要的是思路,不是需要解决问题的人(拿来主义)。至少在这里我比较希望大家这么思考,别把自己的高度做低了,也切勿把脑子的灵活度做懒了。

 

大道至简,大道理总是用一两句简单的话就能说明白的,好比真传一句话,假传万卷书,这种社会现象充斥着我们日常工作生活,还有更重要的是影响我们近乎正确看待一件事物的‘出发点’。自从2022年开始,成本优化(云财务管理)等近义词就热闹了起来,好似一个可以改变世界的新文明被发现了一般,这里没有贬义的口气。而正是这般热闹的现象里,我差点被影响到。

 

因为总是有些自成体系的前辈、后辈在看过一点点FinOps社区内容后,开始布道,大致的几个内容方向是这样:

1、合理规划实例选择(使用竞价实例)

2、利用云平台的伸缩方式

3、动态检测与降配

4、避免不必要的浪费

。。。。

 

其实我稍微复盘了下个人的内容,我可能是没法写出这样的文字,因为片面的总结了一些个人所知所得,除了想表现佐证自己的能力外,更多的是对这个社区的敬畏之心不够。

 

我们从成本管理的视角来分析,首先第一件事情是要做什么?成本的识别,那成本的识别第一步做什么?给运行的各种云服务打上TAG以及分组

 

2.png

 

纵观各大云厂商关于云成本方面的知识体系,以AWS为表达,在成本优化的文章里,最早的cost optimization 系列文章能追溯到2013年,而这里面第一件事就是教用户合理使用TAGCOST Tools

 

国内2022年以后的重视,这也是一种进步,这里引入一张图,大家看看这种体验如何?

3.png

notesGoogle的在compute dashboard上,直接会体现recommendation vm size,即:这就是我在分享里提到的right resizing策略,也是6R策略中我重点分解的。不过请注意,任何一家公有云厂商都没办法在线状态下完成resizing的动作,必须reboot

 

顺着聊,reboot这个动作会产生多少影响?(业务连续性治理体系里的故事)我想这可大可小,也许只有运维工作者才能理解这里面的浅深。

 

4.png

 

 

所以作为读者多少能感受到我对国内这种断章取义式的发声的担忧,因为我们的圈子是封闭的,搜索面也是封闭的。这种影响会直接带来一个错误的认知根。

 

好了,我尽量克制自己,毕竟要做一个清醒的人很难立得住人设,又或者说尝试叫醒圈子里的朋友的成本极大的。大可不必去试着去做,但是这里从学习积累的维度要分享的关键,就是要让大家理解不要关注速成、价值转述、能力bypass。这些都是一个人走向浮躁的特征,非长期主义的工作者~如果你正在靠近这个特征,如果你愿意,可以尝试调整了下。

 

因为有节奏的慢,就是快。有时候你习惯了快,就是慢。这不是24个月内能反思的,而是36/48个月才能感知到。

 

5.png

 

————————方案构成“骨架”

回到今天的主题,我们做云的成本优化第一步,一定要回归到本质问题——我能对哪些做优化?以一个简单的业务背景来分析和推进。从两个维度着手:理论可优化空间和实际可优化空间

1.在传统应用(三层allinone)的云部署环境里:

1.1 可研究降本空间来自于:

核心成本点位——云服务器(CPU/RAM/HDD

配套成本点位——网络资源(IN/OUT

1.2 实际可优化空间来自于:

配套成本点位——网络资源(IN/OUT

 

2.在接近云原生部署的解耦的云部署环境里

2.1 可研究降本空间来自于:

核心成本点位——云服务器(CPU/RAM/HDD

付款方式点位——按量/包月

配套成本点位——网络资源(IN/OUT

配套成本点位——其他paas服务

 

2.2 实际可优化空间来自于:

核心成本点位——云服务器(CPU/RAM/HDD

付款方式点位——按量/包月

 

为什么会有这样的结论,我道明下原因。在成本优化项目里,必须要面对三个大问题。

第一个大问题:预算成本的年评估(一次性年初预算投入评估)

问题1:一次性评估,后半年增长,预算超,有背书风险

问题2:合同新增或修改,也是企业技术部门比较想避开的点(除非一开始签框架,但也是接近总包做法)

第二个大问题:预算过半的变动难

问题1:对于技术部门评估技术,这不难。但退费和按量产生的预测出现变动,无科学合理的纸质背书,换句话说:“优化的结果,从内部来讲无人保证”

问题2:技术团队无责任关联成本使用,陷入降本就是’找事‘的责任旋涡。

第三个大问题:业务影响范围面广

问题1:从外部的服务团队能保证,但务必会涉及我说的reboot,时间可能就变相拉长了交付期。几乎等同于迁移后的报障问题。(大家或多都了解,资源缩减对应用资源占用会造成一些影响)

 

那对于FinOps这件事情来讲,它核心的价值依赖高度开放的工作文化来讲的,是有价值。但水土不服的原因,也许就是以上我提到的这几点,所以要想做,就得从最开始做,或者途中小范围试点做。这样避雷的效果会更好。

 

切记太关注如何’炫技‘,这是不负责任的(不看业务)典型特征。至少在很多互联网的团队里,这些炫技就是’笨蛋‘的行为,职业生涯经常做过山车,没办法做到削峰、平谷。如果避雷,就是用大道至简的一句话解释:“明白了压力在哪,你就知道如何投入资源”。做MSP公司,知道89101112自然月份项目多,招人也大都是在这些日子。那从人力的维度是不是尽可能的在降低人力的闲置率。

 

类比到云服务的投入上来说,我知道了压力在哪里?我改在哪个地点(时间)放大负载(扩容)是不是也很清晰了?没错,就是这样。压力在哪,扩缩容就在哪!

 

聊个具体的工作例子,容器集群的用例,背景情况~

  • 生产环境是100%跑在公有云上
  • 业务遍布世界各地,在新加坡、印度、拉美和国内。且国内多个集群跑在不同的云厂商上,这就决定了我们的所有方案都必须是通用的
  • 流量比较规律,高峰低谷也比较明显(流量特征决定预测的预测效果)

 

优化对象定义:

  • 云服务器采购成本优化
  • 提供清单
  • 服务器利用率优化
  • 提供performance

 

优化手段界定:

  • 容器集群技术(HPArequest/limit
  • 分析已有yamlrequest/limit的设定根据,运行日志
  • 合理性分析
  • 产品购买方式
  • 提供预算分摊模型(总预算/12
  • 提供支付方式和支付记录

 

怎么干?

  1. 基于流量特点,采用二八原则。20%固定采购(包年包月)80%动态采购(payasyougo),匹配的采购策略——saving plan(节省计划)+竞价实例
  1. 成果:follow traffic feature 解决 over provision 静态规划
  1. 基于HPA集群特征,参考业务架构无损的设计,划定特征①的扩缩容时间窗口
  1. 成果:使用limit/request控制20%负载和80% 动态调度
  2. 成果:不断基于历史数据,计算出业务的最优匹配规则(算法)

 

注意事项:

  • 动态调度背后的资源,全使用竞价(需要关注随时中断实例的风险)
  • 调整策略resizing,就是关心成本大头(云服务器,同样担心和上面一样)

 

6.png

 

这时,大家可能会问,老师你不是说要先识别成本嘛,为什么直接开干了?其实不然,这类场景就是我们直接上项目的处境。如果按照阶段来说明STAGE 1past) ———STAGE 2 in process)———STAGE 3feature)。

 

我们一般都在STAGE 2in process) 状态,因为客户找到你的时候,多数情况是在STAGE2的“运行状态”中。所以识别的空间肯定是有的,但不一定够。在此用例中就是这样~客户已经基本确认了几个方向的事情,我们直接进入主题并展开细节讨论即可。

 

即核心放方案思维就是上面这部分的描述,不多。但就是成本优化的第一件事情,但这是在全面理解了FINOPS的工作框架后,直接有思路的进入状态——直接开场行为。这是成熟度把握的问题,而不是跳跃成熟的学习,直接照搬看似成熟较高的“招数”来侃侃而谈。

 

算是一气呵成,中间接了个电话,确实有些情绪在里面,请大家客观阅读理解(吐槽)

 

 

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
设计模式 开发框架 前端开发
项目开发中,真的有必要定义VO,BO,PO,DO,DTO这些吗?
存在即是合理的,业务复杂,人员协同性要求高的场景下,这些规范性的东西不按着来虽然不会出错,程序照样跑,但是遵守规范会让程序更具扩展性和可读性,都是前辈血淋淋的宝贵经验,为什么不用?
|
网络协议 算法 网络虚拟化
【HCIP】03.VLAN高级技术(一)
【HCIP】03.VLAN高级技术
338 0
|
Dragonfly 缓存 Kubernetes
Dragonfly 在 Kubernetes 多集群环境下分发文件和镜像
Dragonfly 在 Kubernetes 多集群环境下分发文件和镜像
Dragonfly 在 Kubernetes 多集群环境下分发文件和镜像
|
Prometheus Cloud Native Java
微服务框架(二十三)Prometheus + Grafana 安装、配置及使用
此系列文章将会描述Java框架Spring Boot、服务治理框架Dubbo、应用容器引擎Docker,及使用Spring Boot集成Dubbo、Mybatis等开源框架,其中穿插着Spring Boot中日志切面等技术的实现,然后通过gitlab-CI以持续集成为Docker镜像。 本文为Prometheus + Grafana 安装、配置及使用 本系列文章中所使用的框架版本为Spring ...
|
6月前
|
机器学习/深度学习 运维 自然语言处理
AIOps在美团的探索与实践——事件管理篇
本文介绍了美团AIOps在事件管理领域的探索与实践,涵盖事前预防、事中处理和事后运营三大阶段。通过智能变更检测、多模态故障诊断、相似事件推荐等技术,提升故障发现效率与准确性,助力运维智能化升级。
|
12月前
|
运维 前端开发 算法
开源中国【专访】 | CodeFuse:让研发变得更简单
CodeFuse 是蚂蚁集团自研的代码生成大模型,旨在简化研发流程,提供智能建议和实时支持。它能自动生成代码、添加注释、生成测试用例并优化代码。通过创新的 Rodimus 架构,CodeFuse 实现了“小体量,大能量”,显著提升了资源利用效率。其特色功能“图生代码”可将设计图一键转换为代码,准确率超过90%,大幅提高前端开发效率。此外,CodeFuse 还引入了“Code Graph”概念,帮助 LLM 更好地理解仓库级代码结构,缩短任务处理时间。未来,CodeFuse 将致力于全生命周期的研发支持,涵盖需求分析、代码生成到运维监测,推动行业技术迭代与创新。
584 3
|
搜索推荐 数据挖掘 API
探讨拼多多商品 API 接口:运用及收益
拼多多以其独特的商业模式迅速崛起,成为电商领域的重要力量。拼多多商品API接口为开发者和企业提供了一套强大的工具,能够获取丰富的商品信息,包括基本资料、价格详情、库存数据、商品图片、销售属性、销量数据及用户评价等。该接口在电商平台拓展、数据分析、移动应用开发和营销推广等多个领域展现出卓越的应用价值,不仅促进了销售额和利润的增长,还优化了用户体验,积累了宝贵的数据资产,为企业战略决策提供了重要依据。
1155 5
|
数据采集 缓存
访问网站的速度变慢的原因有什么,有哪些解决方法?
随着互联网技术和科技的发展,在上网的时候使用代理ip的使用人数也越来越多,因为业务的需求需要使用http动态代理ip的应用范围越来越多,那么访问网站的速度变慢的原因有什么,有哪些解决方法? 接下来小编就给大家介绍一下
723 2
|
机器学习/深度学习 人工智能 算法
AI在医疗:深度学习在医学影像诊断中的最新进展
【10月更文挑战第27天】本文探讨了深度学习技术在医学影像诊断中的最新进展,特别是在卷积神经网络(CNN)的应用。文章介绍了深度学习在识别肿瘤、病变等方面的优势,并提供了一个简单的Python代码示例,展示如何准备医学影像数据集。同时强调了数据隐私和伦理的重要性,展望了AI在医疗领域的未来前景。
575 2
|
SQL 关系型数据库 数据库连接
Python连接线上数据库的实战指南
Python连接线上数据库的实战指南
1027 1