客户背景
TCL 创立于 1981 年,总部设于中国广东省惠州市,目前已形成 TCL 实业和 TCL 科技两大主体,布局智能终端、半导体显示、新能源光伏三大核心产业,成长为一家具有全球竞争力的智能科技产业集团。TCL 目前拥有13万名员工,在全球布局43个研发中心和32个制造基地,业务遍及160多个国家和地区,全球累计服务用户超9.6亿。
客户痛点
- 整体资源利用率较低,成本洞察粒度不足,无法驱动策略优化。在早期上云的过程中,TCL 通过给不同的事业部分配独立云账号的方式,实现成本单元的规划与核算。但是当工程师团队希望洞察整体的资源使用和浪费情况时,单纯从服务器等云资源的利用率来衡量业务的容量规划浪费情况是不够合理的。因为从单个业务的视角,容量规划需要根据业务的峰值情况来规划。
- 业务高速发展,传统容量规划的周期无法满足,影响业务使用。TCL 上云的过程经历了上云迁移期、业务增长期、业务稳定期等多个阶段。在上云迁移期和业务增长期中,发现传统按照月度、季度甚至年度的 IT 成本治理周期无法跟上业务增长的速度,造成很多业务处于无资源可用或超预算使用的情况。
- 临时作业/突发任务等短周期作业较多,对容量规划带来巨大挑战。TCL 压测平台是一个被重点关注的业务,因为压测任务具有短时间、大规模、低成本的要求,是传统企业 IT 成本管理中最难以处理和解决的资源类型,但也是上云按需使用的最佳场景。
- 业务容量、成本预估困难,缺少数字化指标支撑增效降本。在 TCL 工程师团队定下增效降本的目标后,如何数字化衡量和评估应用的容量和成本情况,成为了最大的挑战。只有当一个应用的资源成本画像可以被准确绘制时,才能有针对性地建立优化策略。
方案亮点
- 洞察资源使用量,调控周期性业务成本,提高集群利用率。针对具体应用类型,选择适合的机型和配置,并与业务团队协商容量上限,在全链路压测中确定容量水位和容量画像,通过容器服务的成本分析功能,查看当前容量规划下应用的真实利用率。对于存在周期性业务的情况,采用定时伸缩模型降低资源成本,在生产环境和测试环境中调整超卖比配置,提高集群利用率。
- 精细化成本管理,合理规划容量,应对突发业务。定时查看、巡检集群中应用的利用率和资源水位,汇总成本报表,通过云原生企业IT成本治理方案进行集群-部门-应用维度的实时成本预估,让部门时刻关注成本的趋势变化,开启 HPA 自动伸等缩策略和报警,保障业务在流量突增场景的鲁棒性。
- 快速预估成本,基于数字化指标精准绘制资源成本画像。通过云原生企业 IT 成本治理方案提供的费用分摊功能,定期将拆分后的成本分析数据推送给不同角色的人员,并建立复盘机制,协同技术、财务、业务团队迭代优化成本画像的合理性。
建设成果
通过云原生企业IT成本治理方案,TCL 工程师团队可以非常便捷地提供 Kubernetes 集群中的业务、组织等维度的成本数据,大大提升了部门之间的成本通晒的效率,配合技术、业务、财务“战略同频”的云原生 IT 成本治理流程,为集团优化了10%闲置的资源,各类业务降低了30%的配额,每年节省近千万的 IT成本投入。