极致弹性:流利说基于容器服务的云原生实践

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 本篇内容分享了极致弹性:流利说基于容器服务的云原生实践。

分享人:孙文杰 流利说Cloud Infra总负责人

徐  征 阿里云高级产品解决方案架构师

正文:

本篇内容将通过个部分来介绍极致弹性:流利说基于容器服务的云原生实践

一、云原生基础设施概览

二、流利说基于容器服务的云原生实践

三、流利说弹性的成本优化

image.png

一、云原生基础设施概览

在2023年有超过70%的这样的AI机器学习的任务可能需要用容计算模型来承载。Kubernetes逐渐成为云原生时代的基础设施。

image.png

AI对容器化运行,有一些特定的诉求。最底层,需要去管理异构资源这些设备可以在容器服务的集群里统一管理。针对AI类的业务有特定的调度诉求。在阿里云的ACK上,我们会把兼容AI或者大数据的调度能力往调度器的主线上做可以原生的支持普通的在线业务以及大数据或者AI集群里无缝的兼容使用。通过我们的开源项目,更好地解放数据科学家的生产力,让他简单的命令行方式,把AI的任务更好地跑在容器上。

image.png

的最大特性是弹性和按需我们怎么帮助客户构建这样的弹性能力,更好地贴近客户的业务场景比如微博应对它的热点门事件,需要在极短的时间内去扛几百上千倍突发流量,我们基于容器是不是能有这样的能力支撑这样的业务特性。通过我们提供的竞价实力的弹性组合,可以极大的缩短整个云资源的消耗

image.png

二、流利说基于容器服务的云原生实践

我们公司是纽交所上市公司,一家卓越的科技驱动的AI教育公司,我们口号是赋能每一个人实现最大潜力

image.png

我们有很复杂的业务比如AI老师,业务模型,在线推理等等。所以我们有需要用到云原生和弹性的事情

image.png

去年我们全站完成了从AWS迁移到阿里云,所以我们是一家生云。我们一开始就基于云的弹性做研发部署测试。流利说,生于云、长于云,天然的云原生架构,适合运行在云上的应用,并让应用可以运行在任意云上。

image.png

我们这么多年对于云的理解,我们需要的时候,打开水龙头自然就来了。弹性机制的弹性效率。对业务来说,他们需要业务交付的效率业务产品运营效率我们团队来说,就是所有生产测试流程的K8S。所以云满足了我们所有的需求。

image.png

我们要解决三大问题,业务架构部署架构成本问题我们需要最少的资源跑更多的服务提升业务的稳定性和工程效率。

image.png

首先聊一聊我们的AI训练模型。它屏蔽所有底层资源,它的工作流轻巧、弹性、高效。

image.png

我们的架构体系刚刚完成所有的转换现在把所有算法层面的GPU集群切到了基于阿里的开放平台让我们科学家算法工程师有更简单的计算的工作量

image.png

我们用一个工具屏蔽所有底层资源、环境管理、任务调度和GPU分配的复杂

当我们不需要计算时,集群会马上缩容量较薄时,马上扩容从而解放数据科学家,专注于核心代码。

image.png

因为需要强控制成本和公司效率我们从单个GPU设备入手,实现多容器共享GPU,提升运行密度。从多GPU集群入手,GPU分配策略,避免资源碎片。GPU显存维度池化,新老卡统一利用。GPU弹性伸缩,优化持有成本。最后,我们通过训练任务调度,规避资源争抢。分布式缓存加速,减少GPU等待数据。

image.png

接下来我们聊聊GPU利用率。基于Kubernetes GPU共享调度器教会业务和算法工程师如何操作?关于推理GPU共享和隔离,ACK提供GPU共享调度,支持所有Nvidia Tesla GPU型号。GPU支持GPU显存、计算单元隔离和动态调整,且无侵入。

image.png

为了解决周期性的波峰波谷,支持可随时伸缩的架构。我们在集群间服务拷贝、流量切换、通过熔断、降级等手段,解决了波峰波谷的问题。接着,我们需要提升ServiceMesh的服务治理能力,提升业务连续性、稳定性、可靠性。所以我们对现有资源进行合理利用。这期间,没有业务和研发人员参与。

image.png

这是我们的核心架构我们做了数据打包所有的变更可追溯所有的东西可追溯可回滚形成了天然的审批链条我们基于云厂商给到的所有能力,提升业务稳定性边主要是监控告警的系统。

image.png

我们自研一套了基于Velero的系统。它可以在集群间进行资源复制和顺序启动。做到了双生产集群,业务流量可按比例双边部署。Kong作为核心API网关,负责流量按比例转发到两个集群。基于ArgoCD的GitOps持续部署流程。多个集群均依赖autoscaler实现资源全自动伸缩。

image.png

三、流利说弹性的成本优化

云厂商的API对于弹性来说至关重要。当机器需要的时候,自己弹,当挂掉的时候,它自然会去补,大大降低了运维成本

image.png

RI是Reserved Instances,先给一部分钱保证资源的同时,拿到比较好的折扣。Spot是Spot Instances,厂商总有一些边角料没切好或者基础机器算多了,导致总有机器多出来,那么我们就可以上去竞价。OD是OnDemand Instances,按量付费,用多少算多少。Saving Plan是Savings Plans,一个基于算力的统一机器池概念。

image.png

自动弹性伸缩支持ECS,ECI混合弹性,自定义弹性策略。集成KFServing,Seldon开源AI推理服务框架,支持Tensorflow-serving,Triton等推理服务器支持按量、竞价实例和Spot fleet组合,性价比优化支持ECS,ECI混合弹性,自定义弹性策略自动弹性伸缩。

image.png

Saving Plan节省计划基于RI预留实例。通过CronHPA支持定时伸缩。CustomHPA可以依据非CPU&MEM的用户自定义伸缩。RR用于资源推荐。CloudSave用来平衡Spot&OD。相对于固定节点,弹性降低60%资源。实现了降本增效的目的。

image.png

我们未来需要去做Spark/Flink/Presto容器化离在线混部。之后帮助我们业务提升它的稳定性,控制成本,提升效率所以我理解云和我们团队的价值所在,就两个字”效率,效率有成本稳定性,二者缺一不可。

相关实践学习
使用容器计算服务ACS算力快速搭建生成式AI会话应用
本实验将指导您如何通过阿里云容器计算服务 ACS 快速部署并公开一个容器化生成式 AI 会话应用,并监控应用的运行情况。
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
12天前
|
运维 监控 Cloud Native
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
国诚投顾携手阿里云,依托Serverless架构实现技术全面升级,构建高弹性、智能化技术底座,提升业务稳定性与运行效率。通过云原生API网关、微服务治理与智能监控,实现流量精细化管理与系统可观测性增强,打造安全、敏捷的智能投顾平台,助力行业数字化变革。
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
|
3月前
|
Kubernetes Cloud Native 安全
云原生机密计算新范式 PeerPods技术方案在阿里云上的落地和实践
PeerPods 技术价值已在阿里云实际场景中深度落地。
|
3月前
|
Kubernetes Cloud Native 安全
云原生机密计算新范式 PeerPods 技术方案在阿里云上的落地和实践
PeerPods 技术价值已在阿里云实际场景中深度落地。
|
14天前
|
运维 监控 Cloud Native
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
通过与阿里云深度合作,国诚投顾完成了从传统 ECS 架构向云原生 Serverless 架构的全面转型。新的技术架构不仅解决了原有系统在稳定性、弹性、运维效率等方面的痛点,还在成本控制、API 治理、可观测性、DevOps 自动化等方面实现了全方位升级。
|
2月前
|
Cloud Native 中间件 调度
云原生信息提取系统:容器化流程与CI/CD集成实践
本文介绍如何通过工程化手段解决数据提取任务中的稳定性与部署难题。结合 Scrapy、Docker、代理中间件与 CI/CD 工具,构建可自动运行、持续迭代的云原生信息提取系统,实现结构化数据采集与标准化交付。
云原生信息提取系统:容器化流程与CI/CD集成实践
|
3月前
|
资源调度 Kubernetes 流计算
Flink在B站的大规模云原生实践
本文基于哔哩哔哩资深开发工程师丁国涛在Flink Forward Asia 2024云原生专场的分享,围绕Flink On K8S的实践展开。内容涵盖五个部分:背景介绍、功能及稳定性优化、性能优化、运维优化和未来展望。文章详细分析了从YARN迁移到K8S的优势与挑战,包括资源池统一、环境一致性改进及隔离性提升,并针对镜像优化、Pod异常处理、启动速度优化等问题提出解决方案。此外,还探讨了多机房容灾、负载均衡及潮汐混部等未来发展方向,为Flink云原生化提供了全面的技术参考。
193 9
Flink在B站的大规模云原生实践
|
2月前
|
运维 Kubernetes Cloud Native
分钟级到秒级:Yahaha 基于 OpenKruiseGame 的 UE5 游戏云原生实践
回顾《STRIDEN》项目在短短两个月内完成云原生转型的历程,它验证了一条清晰、可行的路径,即如何利用云原生技术,从根本上解决现代在线游戏所面临的运维复杂性难题。
|
2月前
|
存储 监控 测试技术
如何将现有的应用程序迁移到Docker容器中?
如何将现有的应用程序迁移到Docker容器中?
189 57

相关产品

  • 容器计算服务
  • 容器服务Kubernetes版