Cluster Optimizer:一款云原生集群优化平台
云原生成本亟待优化
云原生技术已经成为未来技术发展的主流趋势之一。据Gartner预测,到2025年,超过95%的新数字工作负载将部署在云原生平台上。随着云原生技术的广泛应用,企业能够实现更高效的资源利用率、更快的应用交付速度,以及更强的可扩展性和可靠性。然而,实践中受多种因素影响,云成本容易失控。
根据2021年CNCF FinOps Kubernetes报告,68%的受访者表示企业在迁移至Kubernetes平台后,计算资源成本有所增加,其中36%表示成本上涨超过20%。2023年CNCF Cloud Native和Kubernetes FinOps微调查显示,49%的受访者认为成本有所增加或显著增加。而在2024年Flexera云现状报告中,59%的用户表达了对成本优化的关注。2023年中国FinOps产业发展研究报告也指出,超过一半的企业存在IT资源浪费情况,超过80%的企业有IT资源和成本优化的需求。因此,监控和管理云原生应用的成本并及时采取优化措施,变得越来越紧迫。
云原生成本优化的三大挑战
在云原生成本优化中,主要面临以下三个问题:
资源闲置: 资源闲置是指未及时释放的资源,例如在开发测试环境中未及时释放的应用实例或相关资源(如弹性IP)。
配置不当: 包括资源超量申请或不合理使用扩缩容机制。例如,为确保应用峰值性能而申请过多CPU或内存,或者错误设置扩缩容触发条件,导致应用最小副本数过大。
缺乏自动化优化机制: 缺乏自动化机制导致运维依赖人工干预,增加了复杂性。例如,节点上挂载的磁盘容量波动时,系统无法自动根据实际需求缩减磁盘容量。
云原生集群优化平台 Cluster Optimizer
Cluster Optimizer 的核心目标是通过自动化、智能化的工具帮助用户降低云成本,解决云原生架构带来的成本管理难题。该平台结合深度学习、序列决策等先进算法与云计算实践经验,构建了一套全面的技术解决方案。Cluster Optimizer能够深入分析云资源、应用、用户行为和云服务商数据,精准识别优化机会(例如闲置资源、配置不当),并为用户提供优化建议及自动化支持,帮助企业降低成本、提升性能和效率。
Cluster Optimizer的优化建议维度
Cluster Optimizer从多个维度提供优化建议,包括:
- 节点组: 提供实例类型推荐策略,自动扩缩容建议,以及最大、最小节点数配置建议。
- 节点: 评估节点利用率,推荐适合的实例类型。
- GPU节点: 识别低利用率的GPU节点,提供合适的实例类型建议。
- 磁盘: 评估磁盘利用率,帮助用户设置适当的磁盘容量。
- 持久卷(Persistent Volume): 识别未使用或低利用率的持久卷,帮助用户删除未使用卷或调整低利用卷的容量。
- 应用: 提供资源推荐、未设置资源限额和OOM(内存溢出)策略,推荐合适的Request和Limit,监控内存溢出问题。
示例:节点组推荐策略
通常,集群中的节点会划分为多个节点组,每个节点组有其特定用途(如区分不同业务)。云服务商提供自动扩缩容服务,但设置节点组的实例类型及节点最大、最小值十分具有挑战性。节点组推荐策略通过分析当前负载指标、云提供商实例价格和地域分布等因素,为用户推荐最具成本效益的实例类型、是否启用自动扩缩容、节点最大值和最小值。这样,随着负载变化,系统能够持续优化节点组的配置。
例如,图中所示的节点组 us-pre-eks-cluster-node-r5a-20240229
目前设置为实例类型 r6a.4xlarge
,启用了自动扩缩容,最大和最小节点数均为2。优化策略建议的实例类型包括 r5a.large
、r6a.large
和 r5a.2xlarge
,并建议将最大节点数设为7,最小节点数设为1。通过这些优化,用户可以在利用率低时显著降低成本。
如何安装和试用 Cluster Optimizer
我们提供了Cluster Optimizer社区版,您可以通过以下链接免费安装和试用: