阿里云易立:云原生如何破解企业降本提效难题?

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
注册配置 MSE Nacos/ZooKeeper,118元/月
性能测试 PTS,5000VUM额度
简介: 为了解决云架构和云原生技术带来的新挑战,企业开始关注新的成本治理方法。通过IT、财务、业务等团队协同,在保障业务发展的同时帮助企业获得更好财务控制和可预测性。

作者:易立


2020 年以来,新冠疫情改变了全球经济的运行与人们的生活。数字化的生产与生活方式成为后疫情时代的新常态。今天,云计算已经成为全社会的数字经济基础设施,而云原生技术正在深刻地改变企业上云和用云的方式。如何利用云原生技术帮助企业实现降本增效是很多 IT 负责人关注的话题。


阿里巴巴一直是云原生领域的的探索者和实践者。阿里集团的云原生之路有几条主线:


  1. 第一个阶段是应用架构的互联网化。2007 年起,随着互联网流量大爆发,阿里开始构建互联网规模分布式应用架构,自研微服务、消息、分布式数据库等核心中间件。


  1. 第二个阶段是基础设施云化。阿里云 2009 年开始自研飞天云操作系统,集团业务开始逐渐上云。同时,2011 年阿里集团开始探索落地容器技术,加速应用迁云,最大化利用云的弹性,通过离在线混部优化计算成本,到了 2019 年实现了核心系统全面上云。


在这个基础上,阿里集团开始实现全面的云原生升级。我们坚持开源技术、阿里云产品和集团应用的 三位一体。到 2021 年,实现了业务 100% 上云,应用 100% 云原生化。


云原生技术已经为阿里带来了巨大的价值红利。目前阿里集团已经拥有全球最大的 K8s 集群,单集群过万节点,可以统一支持电商、搜索、大数据、AI 等多样化应用。2021 年阿里双 11 大促峰值的计算成本相较去年下降了 50%。Serverless 也在大量场景落地,研发效能提升 40%。


得益于阿里的云原生大规模实践,阿里云为企业构建了先进、普惠的云原生产品家族,同时服务阿里集团和各行业客户。2022 年 1 季度,在权威咨询机构 Forrester 发布的公共云容器平台分析师报告中,阿里云容器服务 ACK 成为比肩 Google 的全球领导者,这也是首次有中国科技公司进入容器服务领导者象限。


企业降本增效之路上面临的难题


过去几年,以容器为代表的的云原生技术快速发展,在最新 CNCF 开发者调查中,在 2021 三季度年全球已经有超过 700 万云原生开发者。使用云原生技术可以驱动企业实现降本增效是当下大多数开发者的共识。但我们同样可以看到的是,在 2021 年 CNCF《FinOps Kubernetes Report》的调研报告中显示,68% 的受访者表示所在企业过去一年在 Kubernetes 环境的计算资源成本有所增加。这背后的原因是什么?


通过与企业的沟通和分析,我们发现企业目前面临五大难题:


  • 规划难。当业务迁移到容器场景后,需要对应用进行容量规划,过度分配资源会导致资源浪费,资源超售过度则会导致稳定性问题。


  • 计费难。容器应用与传统应用相比具备更高的弹性和动态性,可以按需创建和释放资源,这也对费用估算带来更大的挑战。


  • 分账难。与传统应用部署与资源绑定的方式不同。现在多个容器应用共享一个 K8s 集群。一个计算节点上可以运行多个 Pod,而且 Pod 可以弹性伸缩,在节点间动态迁移。应用层与资源层计量计费在空间、时间等多个维度都无法做到一对一对应,造成成本治理的复杂性。


  • 优化难。云原生技术中例如:弹性、混部、Serverless、超卖等技术都有各自适合的典型场景。如果使用不当,比如弹性配置错误,可能带来意想不到的资源浪费甚至稳定性问题。


  • 管理难。混合云已经成为企业 IT 架构的新常态。Kubernetes 可以帮助企业屏蔽基础差异。而不同环境财资管理能力参差不一,缺乏统一开放的用量数据模型进行管理,使得企业难以从全局的视角进行整体的成本分析与优化。


近些年,随着企业上云的加速,云财务管理(FinOps)的概念被越来越多的企业提及与采纳,FinOps 是一种云的运营模式,它将系统、最佳实践和文化结合在一起,以提高组织了解云成本的能力。这是一种为云支出带来财务责任的做法,使团队能够做出明智的业务决策。FinOps 增强了 IT、工程、财务、采购和企业之间的协作。它使 IT 能够发展成为专注于利用云技术为业务增值的服务组织。当云原生技术与 FinOps 概念交织在一起,就孕育出了云原生IT成本治理(Cloud Native FinOps)的理念,它是 FinOps 概念在云原生场景下的一种演进与进化。


为了解决云架构和云原生技术带来的新挑战,企业开始关注新的成本治理方法。通过IT、财务、业务等团队协同,在保障业务发展的同时帮助企业获得更好财务控制和可预测性。


云原生企业 IT 成本治理方案:加速企业 FinOps 进程


阿里云结合业财一体化实践和 FinOps 理念,提供了原生的产品能力,为企业提供了云上全链路财务经营管理保障。阿里云容器服务推出了企业云原生 IT 成本治理方案,助力企业在云原生云上的场景下,提供企业 IT 成本管理、企业 IT 成本可视化、企业 IT 成本优化等功能。


5 月 19 日,由中国信息通信研究院(以下简称“中国信通院”)和中国通信标准化协会联合主办的“2022 云管和云网大会”成功召开。会上发布了《可信云•云成本优化工具能力要求 - 第 1 部分 原生工具》标准及首批评测结果。阿里云凭借在云上成本管理的产品能力,以满分的成绩通过了全部 33 个能力指标,成为国内首家通过该项评估的云服务商。


阿里云企业云原生 IT 成本治理方案拥有五大核心功能:


1.png


核心功能一:独有的云原生容器场景成本分摊与估算模型。为了解决容器场景下业务单元与计费单元生命周期不一致的问题,容器服务提出了独有的计费与计量相结合的成本估算模型,并加入费用策略(付费类型、节省计划、代金券、用户折扣、竞价波动)、分摊因子(CPU、内存、GPU 卡、GPU 显存等)、资源形态(ECS\ECI\HPC)等因素的考量,实现针对 Pod 维度的成本估算以及集群占比的成本分摊。通过账单分析将集群在一个阶段内的所有资源成本进行聚合,再配合 Pod 维度的成本分摊能力实现了完整的云原生容器场景成本分摊与估算模型。


核心功能二:多维度的成本洞察、趋势预测、根因下钻。支持集群、命名空间、节点池、应用(label 通配符匹配)四个维度的成本洞察,集群维度侧重在云资源的分布、资源成本的趋势变化、集群水位与浪费的比率以及集群成本费用的趋势与预测,可以协助IT管理员准确判断成本消费的趋势,防止超过预算的场景;命名空间侧重在费用的分摊,支持短周期的费用预估以及长周期的成本分摊,支持调度水位、资源用量、成本趋势的相关性分析,协助部门管理员进行成本估算,下钻分析成本浪费,提升部门资源利用率;节点池维度侧重在资源成本规划与治理,通过实例类型、单位核时、调度水位、利用率水位的相关性分析,协助 IT 资产管理员优化资源组合和付费策略。应用(label 通配符匹配)维度侧重在领域场景成本优化,例如:大数据、AI、离线作业、在线应用等各种上层应用场景,都可以通过应用维度的成本洞察进行实时费用预估以及任务级别的成本核算。


通过四个维度的成本洞察,可以让全场景的成本优化功能与解决方案都有数据可以支撑,有理有据的进行降本增效。


核心功能三:全场景的成本优化能力、解决方案的覆盖。针对于不同企业的实际业务场景,阿里云容器服务提供了全场景的资源画像建立、成本优化能力与解决方案。此外,企业针对成本的优化策略,大部分是需要业务场景支撑的,很多场景下还会存在定制化和二次开发。因此,阿里云容器服务的企业云原生 IT 成本治理方案提供的成本洞察能力与上层优化方案完全解耦的,可以通过四个维度的成本洞察能力,覆盖全场景的成本优化手段的衡量与评估。


核心功能四:多集群/多云/混合云全类型云成本管理能力。多云是目前企业上云的新趋势,不同的云厂商的计费模型存在比较大的差异,例如:国内云服务商常见的包年包月付费方式、国际云服务商常见的信用卡预扣/后付、部分云服务商支持的节省计划以及预留实例等等。这些都对多云云管平面的成本分析能力提供了更多的挑战。阿里云容器服务的企业云原生 IT 成本治理方案通过提供统一的云服务厂商的账单与询价接入与默认实现,支持主流的云服务厂商、IDC 自建机房的费用数据的接入。并通过一致的云原生容器场景成本分摊与估算模型进行成本管理。配合企业级云原生分布式云容器平台 ACK One,不仅提供了多集群、多环境的统一集群管理、统一资源调度、统一数据容灾和统一应用交付能力,也提供了统一的财资治理能力。


核心功能五:企业云原生IT成本治理的专家服务。企业云原生 IT 成本治理不仅仅是一个产品能力或者解决方案,更是一种云原生时代的企业IT管理、组织流程、文化的演进。阿里云容器服务团队联合阿里云天基团队,通过阿里云云资管家提供完整的 FinOps 理念覆盖的产品及专家服务。image.gif


2.png


比如,我们可以通过多维度的成本分析、洞察功能,了解应用的成本和资源利用率。并能提供趋势预测。为企业财资管理提供决策依据。为了满足企业多样化的治理需求,我们还提供了开放的数据模型,可以通过 Prometheus、OpenAPI 等方式集成到企业自己的治理流程中。有了成本洞察能力,我们看看可以利用什么样的手段实现成本优化。


多样化弹性能力:弹性容器实例可以在 30 秒内扩容 3000 Pod


3.png


弹性是云最核心的能力之一,可以有效降低计算成本。ACK 在资源层和应用层提供了丰富的弹性策略。


在资源层,当集群资源不足时,ACK 集群可以利用 cluster-autoscaler 在节点池中自动创建新的节点实例。我们可以根据应用负载,选择 ECS 虚拟机,神龙裸金属实例,进行扩容。基于阿里云强大的弹性计算能力,我们可以在分钟级实现千节点扩容。


在 ACK 集群中一个更加简化的方案是利用 ECI 弹性容器实例来实现弹性。ECI 基于轻量虚拟机提供了 Serverless 化的容器运行环境,具备强隔离、高弹性,免运维、免容量规划的特性。弹性容器实例可以在 30 秒内扩容 3000 Pod,可以轻松应对突发的新闻事件,或者支持自动驾驶模拟仿真这样的批量计算业务。


值得一提的是,我们可以使用 ECS 或者 ECI 的竞价实例,它可以利用阿里云的空闲计算资源,成本折扣可以低至按量付费实例的 90%。竞价实例非常适合无状态和容错性好的应用,比如批量数据处理或者视频渲染等。在应用层,Kubernetes 提供了 HPA 的方式进行 Pod 的水平伸缩,和 VPA 进行 Pod 的垂直伸缩。ACK 内建了基于机器学习的 AHPA 方案、来进一步简化弹性体验,提升弹性的 SLA。


4.png


K8s 内建的水平 Pod 自动伸缩(HPA)有两个不足:


第一个是弹性的滞后性,弹性策略基于对监控指标的被动响应,此外由于应用本身启动、预热也需要一定时间,在扩容的过程中,业务稳定性可能会受到影响;


第二个是配置的复杂性,HPA 的运行效果取决于弹性阈值的配置。配置过于激进可能导致应用稳定性受影响,配置过于保守,成本优化的效果就大打折扣。需要反复尝试才能达到一个合理的水平。而且随着业务的变化,也会需要重新调整弹性策略。


阿里云和达摩院团队合作,推出了 AHPA,可以根据历史资源画像,对弹性周期和用量进行预测,提前扩容来保障服务质量,已经在菜鸟 PaaS 平台、阿里云智能语音服务多种场景经过验证。帮助智能语义交互产品实现 90% 的实例在业务来临之前 Ready,CPU 利用率提升 10% 节省 20% 的资源成本。


混部能力升级:在 K8s 上提供对编排调度能力的增强


5.png


随着云原生技术的广泛应用,Kubernetes 之上计算类型的工作负载越来越丰富,我们可以通过合理的编排调度,充分利用负载之间的削峰填谷效应,让工作负载以更稳定、更高效、更低成本的方式去使用资源。这也就是业界时常提及的 “混部”概念。


阿里巴巴在 2011 年开始探索容器技术,并在 2016 年启动混部技术研发,至今经过了多轮技术架构升级,最终演进到今天的云原生混部系统架构,实现了全业务规模超千万核的云原生混部,混部天平均 CPU 利用率超 50%,帮助阿里巴巴节省了大量的资源成本。


混部是在互联网企业内部重金打造的成本控制内核,凝聚了众多的业务抽象和资源管理的思考优化经验,因此混部通常都需要数年的打磨实践才能逐渐稳定并产生生产价值。但是,每家企业是否都需要很高的门槛才能使用混部,都需要大量的投入才能产生价值?


基于阿里集团内部超大规模生产实践经验,阿里云近期开源了云原生混部项目 Koordinator,旨在为用户打造云原生场景下接入成本最低、混部效率最佳的解决方案,帮助用户企业实现云原生后持续的红利释放。它在 K8s 之上提供了对编排调度能力的增强,包含三大核心能力:


  • 差异化 SLO保障:在 Kubernetes 之上抽象一套面向 QoS 的资源调度机制,比如延迟敏感型的在线类任务,和 Best effort 类型可抢占的计算任务。在提升资源利用率的通俗,让低优先级的任务,对延迟敏感型任务的影响 < 5%;


  • 资源精细化调度:包括 CPU、GPU 拓扑感知、资源预留、交互式抢占、碎片整理、资源画像、热点打散等精细调度能力;


  • 任务调度:大数据与 AI 相关的任务调度,比如 Gang、批量、优先级抢占以及弹性 Quota(队列间借用)等,从而更好地去应用整个集群资源。


Koordinator 项目完全兼容上游标准的 K8s,无需做任何侵入式修改。阿里云容器服务提供了产品化支持,用户也可以基于开源项目应用在自己的场景中。可以说,Koordinator 的开源,可以让更多的企业看见并用上云原生混部的能力,帮助企业加速云原生化的过程。在技术上,Koordinator 能够帮助企业实现更多的负载接入到 Kubernetes 平台,丰富容器调度的工作负载类型,继而发挥出工作负载错峰分时的特征,从而实现效率、成本上的收益,保持长期可持续发展的健康形态。Koordinator 项目还在快速发展的过程中,欢迎大家一起共建。

相关实践学习
巧用云服务器ECS制作节日贺卡
本场景带您体验如何在一台CentOS 7操作系统的ECS实例上,通过搭建web服务器,上传源码到web容器,制作节日贺卡网页。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
24天前
|
运维 Cloud Native 持续交付
深入理解云原生架构及其在现代企业中的应用
随着数字化转型的浪潮席卷全球,企业正面临着前所未有的挑战与机遇。云计算技术的迅猛发展,特别是云原生架构的兴起,正在重塑企业的IT基础设施和软件开发模式。本文将深入探讨云原生的核心概念、关键技术以及如何在企业中实施云原生策略,以实现更高效的资源利用和更快的市场响应速度。通过分析云原生架构的优势和面临的挑战,我们将揭示它如何助力企业在激烈的市场竞争中保持领先地位。
|
24天前
|
运维 Cloud Native 安全
云原生技术在现代企业中的应用与挑战####
本文探讨了云原生技术在现代企业IT架构中的关键作用,分析了其带来的优势和面临的主要挑战。通过实际案例分析,揭示了如何有效应对这些挑战,以实现业务敏捷性和技术创新的平衡。 ####
|
21天前
|
Cloud Native 持续交付 开发者
云原生技术在现代企业中的应用与实践####
本文深入探讨了云原生技术的核心概念及其在现代企业IT架构转型中的关键作用,通过具体案例分析展示了云原生如何促进企业的敏捷开发、高效运维及成本优化。不同于传统摘要仅概述内容,本部分旨在激发读者对云原生领域的兴趣,强调其在加速数字化转型过程中的不可或缺性,为后续详细论述奠定基础。 ####
|
1天前
|
存储 NoSQL Cloud Native
MongoDB云原生化:为企业开发注入高效动力
MongoDB云原生化为企业开发注入高效动力,分为三部分:1. 介绍阿里云和MongoDB的服务;2. 阿里云MongoDB解决自建模型痛点的功能,包括隔离性、海量数据处理、弹性能力及运维操作优化;3. 客户案例展示。通过云原生架构,MongoDB实现了灵活的扩展、高效的备份恢复和快速的回档能力,显著提升了企业的业务迭代速度和数据管理效率。典型客户如吉比特、莉莉丝、掌阅等受益于这些功能,实现了更稳定和高效的数据库服务。
|
17天前
|
供应链 安全 Cloud Native
阿里云容器服务助力企业构建云原生软件供应链安全
本文基于2024云栖大会演讲,探讨了软件供应链攻击的快速增长趋势及对企业安全的挑战。文中介绍了如何利用阿里云容器服务ACK、ACR和ASM构建云原生软件供应链安全,涵盖容器镜像的可信生产、管理和分发,以及服务网格ASM实现应用无感的零信任安全,确保企业在软件开发和部署过程中的安全性。
|
17天前
|
人工智能 Kubernetes Cloud Native
阿里云容器服务,智算时代云原生操作系统
2024云栖大会,阿里巴巴研究员易立分享了阿里云容器服务的最新进展。容器技术已成为云原生操作系统的基石,支持多样化的应用场景,如自动驾驶、AI训练等。阿里云容器服务覆盖公共云、边缘云、IDC,提供统一的基础设施,助力客户实现数字化转型和技术创新。今年,阿里云在弹性计算、网络优化、存储解决方案等方面进行了多项重要升级,进一步提升了性能和可靠性。
|
19天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 云原生 API 网关 2024 年 11 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
|
28天前
|
消息中间件 Cloud Native 持续交付
云原生技术在现代企业中的应用与优势###
本文深入探讨了云原生技术在现代企业中的具体应用及其带来的显著优势。随着云计算的普及,云原生作为一种新兴的技术架构,正逐渐成为企业数字化转型的关键驱动力。文章将详细介绍云原生的核心概念、主要技术组件以及在实际业务场景中的成功案例,旨在为读者提供一个全面且实用的参考框架,以便更好地理解和应用云原生技术。 ###
|
22天前
|
Kubernetes Cloud Native 微服务
探索云原生技术:容器化与微服务架构的融合之旅
本文将带领读者深入了解云原生技术的核心概念,特别是容器化和微服务架构如何相辅相成,共同构建现代软件系统。我们将通过实际代码示例,探讨如何在云平台上部署和管理微服务,以及如何使用容器编排工具来自动化这一过程。文章旨在为开发者和技术决策者提供实用的指导,帮助他们在云原生时代中更好地设计、部署和维护应用。
|
1月前
|
Cloud Native Devops 云计算
云计算的未来:云原生架构与微服务的革命####
【10月更文挑战第21天】 随着企业数字化转型的加速,云原生技术正迅速成为IT行业的新宠。本文深入探讨了云原生架构的核心理念、关键技术如容器化和微服务的优势,以及如何通过这些技术实现高效、灵活且可扩展的现代应用开发。我们将揭示云原生如何重塑软件开发流程,提升业务敏捷性,并探索其对企业IT架构的深远影响。 ####
43 3