极致弹性:流利说基于容器服务的云原生实践

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 本篇内容分享了极致弹性:流利说基于容器服务的云原生实践。

分享人:孙文杰 流利说Cloud Infra总负责人

徐  征 阿里云高级产品解决方案架构师

正文:

本篇内容将通过个部分来介绍极致弹性:流利说基于容器服务的云原生实践

一、云原生基础设施概览

二、流利说基于容器服务的云原生实践

三、流利说弹性的成本优化

image.png

一、云原生基础设施概览

在2023年有超过70%的这样的AI机器学习的任务可能需要用容计算模型来承载。Kubernetes逐渐成为云原生时代的基础设施。

image.png

AI对容器化运行,有一些特定的诉求。最底层,需要去管理异构资源这些设备可以在容器服务的集群里统一管理。针对AI类的业务有特定的调度诉求。在阿里云的ACK上,我们会把兼容AI或者大数据的调度能力往调度器的主线上做可以原生的支持普通的在线业务以及大数据或者AI集群里无缝的兼容使用。通过我们的开源项目,更好地解放数据科学家的生产力,让他简单的命令行方式,把AI的任务更好地跑在容器上。

image.png

的最大特性是弹性和按需我们怎么帮助客户构建这样的弹性能力,更好地贴近客户的业务场景比如微博应对它的热点门事件,需要在极短的时间内去扛几百上千倍突发流量,我们基于容器是不是能有这样的能力支撑这样的业务特性。通过我们提供的竞价实力的弹性组合,可以极大的缩短整个云资源的消耗

image.png

二、流利说基于容器服务的云原生实践

我们公司是纽交所上市公司,一家卓越的科技驱动的AI教育公司,我们口号是赋能每一个人实现最大潜力

image.png

我们有很复杂的业务比如AI老师,业务模型,在线推理等等。所以我们有需要用到云原生和弹性的事情

image.png

去年我们全站完成了从AWS迁移到阿里云,所以我们是一家生云。我们一开始就基于云的弹性做研发部署测试。流利说,生于云、长于云,天然的云原生架构,适合运行在云上的应用,并让应用可以运行在任意云上。

image.png

我们这么多年对于云的理解,我们需要的时候,打开水龙头自然就来了。弹性机制的弹性效率。对业务来说,他们需要业务交付的效率业务产品运营效率我们团队来说,就是所有生产测试流程的K8S。所以云满足了我们所有的需求。

image.png

我们要解决三大问题,业务架构部署架构成本问题我们需要最少的资源跑更多的服务提升业务的稳定性和工程效率。

image.png

首先聊一聊我们的AI训练模型。它屏蔽所有底层资源,它的工作流轻巧、弹性、高效。

image.png

我们的架构体系刚刚完成所有的转换现在把所有算法层面的GPU集群切到了基于阿里的开放平台让我们科学家算法工程师有更简单的计算的工作量

image.png

我们用一个工具屏蔽所有底层资源、环境管理、任务调度和GPU分配的复杂

当我们不需要计算时,集群会马上缩容量较薄时,马上扩容从而解放数据科学家,专注于核心代码。

image.png

因为需要强控制成本和公司效率我们从单个GPU设备入手,实现多容器共享GPU,提升运行密度。从多GPU集群入手,GPU分配策略,避免资源碎片。GPU显存维度池化,新老卡统一利用。GPU弹性伸缩,优化持有成本。最后,我们通过训练任务调度,规避资源争抢。分布式缓存加速,减少GPU等待数据。

image.png

接下来我们聊聊GPU利用率。基于Kubernetes GPU共享调度器教会业务和算法工程师如何操作?关于推理GPU共享和隔离,ACK提供GPU共享调度,支持所有Nvidia Tesla GPU型号。GPU支持GPU显存、计算单元隔离和动态调整,且无侵入。

image.png

为了解决周期性的波峰波谷,支持可随时伸缩的架构。我们在集群间服务拷贝、流量切换、通过熔断、降级等手段,解决了波峰波谷的问题。接着,我们需要提升ServiceMesh的服务治理能力,提升业务连续性、稳定性、可靠性。所以我们对现有资源进行合理利用。这期间,没有业务和研发人员参与。

image.png

这是我们的核心架构我们做了数据打包所有的变更可追溯所有的东西可追溯可回滚形成了天然的审批链条我们基于云厂商给到的所有能力,提升业务稳定性边主要是监控告警的系统。

image.png

我们自研一套了基于Velero的系统。它可以在集群间进行资源复制和顺序启动。做到了双生产集群,业务流量可按比例双边部署。Kong作为核心API网关,负责流量按比例转发到两个集群。基于ArgoCD的GitOps持续部署流程。多个集群均依赖autoscaler实现资源全自动伸缩。

image.png

三、流利说弹性的成本优化

云厂商的API对于弹性来说至关重要。当机器需要的时候,自己弹,当挂掉的时候,它自然会去补,大大降低了运维成本

image.png

RI是Reserved Instances,先给一部分钱保证资源的同时,拿到比较好的折扣。Spot是Spot Instances,厂商总有一些边角料没切好或者基础机器算多了,导致总有机器多出来,那么我们就可以上去竞价。OD是OnDemand Instances,按量付费,用多少算多少。Saving Plan是Savings Plans,一个基于算力的统一机器池概念。

image.png

自动弹性伸缩支持ECS,ECI混合弹性,自定义弹性策略。集成KFServing,Seldon开源AI推理服务框架,支持Tensorflow-serving,Triton等推理服务器支持按量、竞价实例和Spot fleet组合,性价比优化支持ECS,ECI混合弹性,自定义弹性策略自动弹性伸缩。

image.png

Saving Plan节省计划基于RI预留实例。通过CronHPA支持定时伸缩。CustomHPA可以依据非CPU&MEM的用户自定义伸缩。RR用于资源推荐。CloudSave用来平衡Spot&OD。相对于固定节点,弹性降低60%资源。实现了降本增效的目的。

image.png

我们未来需要去做Spark/Flink/Presto容器化离在线混部。之后帮助我们业务提升它的稳定性,控制成本,提升效率所以我理解云和我们团队的价值所在,就两个字”效率,效率有成本稳定性,二者缺一不可。

相关实践学习
Docker镜像管理快速入门
本教程将介绍如何使用Docker构建镜像,并通过阿里云镜像服务分发到ECS服务器,运行该镜像。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
1天前
|
存储 弹性计算 Kubernetes
【阿里云云原生专栏】深入解析阿里云Kubernetes服务ACK:企业级容器编排实战
【5月更文挑战第20天】阿里云ACK是高性能的Kubernetes服务,基于开源Kubernetes并融合VPC、SLB等云资源。它提供强大的集群管理、无缝兼容Kubernetes API、弹性伸缩、安全隔离及监控日志功能。用户可通过控制台或kubectl轻松创建和部署应用,如Nginx。此外,ACK支持自动扩缩容、服务发现、负载均衡和持久化存储。多重安全保障和集成监控使其成为企业云原生环境的理想选择。
115 3
|
1天前
|
运维 Cloud Native Serverless
【阿里云云原生专栏】阿里云云原生实践:从容器化到Serverless的无缝过渡
【5月更文挑战第20天】本文介绍了如何在阿里云上实现从容器化到Serverless的平滑过渡。首先,通过阿里云容器服务(ACK)创建和管理容器集群,部署应用。接着,利用函数计算(FC)构建Serverless架构,编写和部署函数代码。最后,借助函数工作流(Fn)进行任务编排,实现容器化应用与Serverless应用的统一管理,从而提升应用弹性和可扩展性,降低运维成本,支持企业高效数字化转型。
163 3
|
4天前
|
运维 Cloud Native 持续交付
构建未来:云原生架构的演变与实践
【5月更文挑战第17天】 在数字化转型的浪潮中,企业正迅速采用云原生技术来构建和部署应用程序。本文将深入探讨云原生架构的核心概念、发展历程以及如何在现代IT环境中实现敏捷、可扩展和高效的服务。通过对容器化、微服务、持续集成和持续部署(CI/CD)等关键技术的分析,我们将揭示如何利用云原生方法论来优化资源利用、加快产品上市速度,并提高系统的可靠性。
14 3
|
5天前
|
存储 Kubernetes 监控
使用Kubernetes进行容器编排:技术详解与实践
【5月更文挑战第16天】Kubernetes,简称K8s,是开源容器编排系统,用于自动化部署、扩展和管理容器化应用。核心概念包括节点、Pod(最小部署单元)、服务、标签和副本集。其特点有高可用性、可扩展性、自动化和可移植性。实践使用涉及安装配置集群、编写YAML部署清单、应用部署、监控管理和扩展更新。Kubernetes帮助提升应用的可用性、可扩展性和可移植性。
|
6天前
|
运维 Kubernetes Devops
构建高效稳定的云基础设施:DevOps与容器化技术融合实践
【5月更文挑战第15天】 在当今的云计算时代,企业为了保持竞争力,不断寻求提高软件交付速度和服务质量的方法。本文将探讨如何通过结合DevOps原则和容器化技术来构建一个既高效又稳定的云基础设施。文章首先介绍了DevOps的核心概念及其如何促进开发与运维的协作,然后详细阐述了容器化技术如何优化应用部署和运行环境。最后,通过一个实际案例分析,展示了这种融合策略在提升自动化水平、加快部署速度以及增强系统稳定性方面的具体成效。
|
6天前
|
运维 监控 Kubernetes
构建高效自动化运维体系:基于容器技术的持续集成与持续部署(CI/CD)实践
【5月更文挑战第15天】 随着云计算和微服务架构的普及,传统的IT运维模式面临转型压力。为提高软件交付效率并降低运维成本,本文探讨了利用容器技术实现自动化运维的有效策略。重点分析了在持续集成(CI)和持续部署(CD)流程中,容器如何发挥作用,以及它们如何帮助组织实现敏捷性和弹性。通过具体案例研究,文章展示了容器化技术在自动化测试、部署及扩展中的应用,并讨论了其对系统稳定性和安全性的影响。
|
6天前
|
运维 监控 安全
构建高效自动化运维系统:基于容器技术的持续集成与持续部署(CI/CD)实践
【5月更文挑战第14天】 随着DevOps文化的深入人心,持续集成与持续部署(CI/CD)已成为现代软件工程不可或缺的组成部分。本文将探讨如何利用容器技术,尤其是Docker和Kubernetes,构建一个高效、可扩展的自动化运维系统。通过深入分析CI/CD流程的关键组件,我们将讨论如何整合这些组件以实现代码从提交到生产环境的快速、无缝过渡。文章还将涉及监控、日志管理以及安全性策略等运维考量,为读者提供一个全面的自动化运维解决方案蓝图。
|
6天前
|
运维 监控 Devops
构建高效稳定的云基础设施:DevOps与容器化技术融合实践
【5月更文挑战第14天】 在当今快速迭代的软件发展环境中,传统的IT运维模式已难以满足业务需求。本文探讨了如何通过DevOps文化和容器化技术的融合来构建一个高效且稳定的云基础设施。文中不仅分析了DevOps的核心理念及其对于提升运维效率的影响,还深入剖析了容器化技术如Docker和Kubernetes在自动化部署、弹性伸缩及微服务架构中的关键作用。此外,文章还将分享一系列实践经验,帮助读者理解如何在实际工作中将DevOps与容器化技术有效结合,以支持业务的敏捷性和可靠性。
18 2
|
6天前
|
Kubernetes Cloud Native 持续交付
构建高效稳定的云原生应用:容器编排与微服务治理实践
【5月更文挑战第14天】 随着企业数字化转型的深入,云原生技术以其弹性、敏捷和可扩展的特性成为现代应用开发的首选模式。本文将探讨如何通过容器编排工具如Kubernetes以及微服务架构的有效治理,构建和维护高效且稳定的云原生应用。我们将分析容器化技术的优势,并结合案例讨论在多云环境下实现持续集成、持续部署(CI/CD)的最佳实践,同时解决微服务带来的分布式复杂性问题。通过本文的阐述,读者将获得一套提升系统可靠性和业务连续性的策略框架。
8 0
|
6天前
|
运维 Kubernetes Devops
构建高效稳定的云基础设施:DevOps与容器化技术融合实践
【5月更文挑战第14天】 随着云计算的普及和企业数字化转型的深入,构建一个高效、稳定且能快速响应市场变化的云基础设施已成为众多组织的技术战略核心。本文将探讨如何通过DevOps文化和容器化技术的结合,实现自动化运维流程,提升服务部署效率,确保系统的可扩展性和高可用性。我们还将分析面临的挑战及解决方案,并展示在实际案例中的应用成果。
6 0

相关产品

  • 容器计算服务