极致弹性:流利说基于容器服务的云原生实践

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
容器镜像服务 ACR,镜像仓库100个 不限时长
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
简介: 本篇内容分享了极致弹性:流利说基于容器服务的云原生实践。

分享人:孙文杰 流利说Cloud Infra总负责人

徐  征 阿里云高级产品解决方案架构师

正文:

本篇内容将通过个部分来介绍极致弹性:流利说基于容器服务的云原生实践

一、云原生基础设施概览

二、流利说基于容器服务的云原生实践

三、流利说弹性的成本优化

image.png

一、云原生基础设施概览

在2023年有超过70%的这样的AI机器学习的任务可能需要用容计算模型来承载。Kubernetes逐渐成为云原生时代的基础设施。

image.png

AI对容器化运行,有一些特定的诉求。最底层,需要去管理异构资源这些设备可以在容器服务的集群里统一管理。针对AI类的业务有特定的调度诉求。在阿里云的ACK上,我们会把兼容AI或者大数据的调度能力往调度器的主线上做可以原生的支持普通的在线业务以及大数据或者AI集群里无缝的兼容使用。通过我们的开源项目,更好地解放数据科学家的生产力,让他简单的命令行方式,把AI的任务更好地跑在容器上。

image.png

的最大特性是弹性和按需我们怎么帮助客户构建这样的弹性能力,更好地贴近客户的业务场景比如微博应对它的热点门事件,需要在极短的时间内去扛几百上千倍突发流量,我们基于容器是不是能有这样的能力支撑这样的业务特性。通过我们提供的竞价实力的弹性组合,可以极大的缩短整个云资源的消耗

image.png

二、流利说基于容器服务的云原生实践

我们公司是纽交所上市公司,一家卓越的科技驱动的AI教育公司,我们口号是赋能每一个人实现最大潜力

image.png

我们有很复杂的业务比如AI老师,业务模型,在线推理等等。所以我们有需要用到云原生和弹性的事情

image.png

去年我们全站完成了从AWS迁移到阿里云,所以我们是一家生云。我们一开始就基于云的弹性做研发部署测试。流利说,生于云、长于云,天然的云原生架构,适合运行在云上的应用,并让应用可以运行在任意云上。

image.png

我们这么多年对于云的理解,我们需要的时候,打开水龙头自然就来了。弹性机制的弹性效率。对业务来说,他们需要业务交付的效率业务产品运营效率我们团队来说,就是所有生产测试流程的K8S。所以云满足了我们所有的需求。

image.png

我们要解决三大问题,业务架构部署架构成本问题我们需要最少的资源跑更多的服务提升业务的稳定性和工程效率。

image.png

首先聊一聊我们的AI训练模型。它屏蔽所有底层资源,它的工作流轻巧、弹性、高效。

image.png

我们的架构体系刚刚完成所有的转换现在把所有算法层面的GPU集群切到了基于阿里的开放平台让我们科学家算法工程师有更简单的计算的工作量

image.png

我们用一个工具屏蔽所有底层资源、环境管理、任务调度和GPU分配的复杂

当我们不需要计算时,集群会马上缩容量较薄时,马上扩容从而解放数据科学家,专注于核心代码。

image.png

因为需要强控制成本和公司效率我们从单个GPU设备入手,实现多容器共享GPU,提升运行密度。从多GPU集群入手,GPU分配策略,避免资源碎片。GPU显存维度池化,新老卡统一利用。GPU弹性伸缩,优化持有成本。最后,我们通过训练任务调度,规避资源争抢。分布式缓存加速,减少GPU等待数据。

image.png

接下来我们聊聊GPU利用率。基于Kubernetes GPU共享调度器教会业务和算法工程师如何操作?关于推理GPU共享和隔离,ACK提供GPU共享调度,支持所有Nvidia Tesla GPU型号。GPU支持GPU显存、计算单元隔离和动态调整,且无侵入。

image.png

为了解决周期性的波峰波谷,支持可随时伸缩的架构。我们在集群间服务拷贝、流量切换、通过熔断、降级等手段,解决了波峰波谷的问题。接着,我们需要提升ServiceMesh的服务治理能力,提升业务连续性、稳定性、可靠性。所以我们对现有资源进行合理利用。这期间,没有业务和研发人员参与。

image.png

这是我们的核心架构我们做了数据打包所有的变更可追溯所有的东西可追溯可回滚形成了天然的审批链条我们基于云厂商给到的所有能力,提升业务稳定性边主要是监控告警的系统。

image.png

我们自研一套了基于Velero的系统。它可以在集群间进行资源复制和顺序启动。做到了双生产集群,业务流量可按比例双边部署。Kong作为核心API网关,负责流量按比例转发到两个集群。基于ArgoCD的GitOps持续部署流程。多个集群均依赖autoscaler实现资源全自动伸缩。

image.png

三、流利说弹性的成本优化

云厂商的API对于弹性来说至关重要。当机器需要的时候,自己弹,当挂掉的时候,它自然会去补,大大降低了运维成本

image.png

RI是Reserved Instances,先给一部分钱保证资源的同时,拿到比较好的折扣。Spot是Spot Instances,厂商总有一些边角料没切好或者基础机器算多了,导致总有机器多出来,那么我们就可以上去竞价。OD是OnDemand Instances,按量付费,用多少算多少。Saving Plan是Savings Plans,一个基于算力的统一机器池概念。

image.png

自动弹性伸缩支持ECS,ECI混合弹性,自定义弹性策略。集成KFServing,Seldon开源AI推理服务框架,支持Tensorflow-serving,Triton等推理服务器支持按量、竞价实例和Spot fleet组合,性价比优化支持ECS,ECI混合弹性,自定义弹性策略自动弹性伸缩。

image.png

Saving Plan节省计划基于RI预留实例。通过CronHPA支持定时伸缩。CustomHPA可以依据非CPU&MEM的用户自定义伸缩。RR用于资源推荐。CloudSave用来平衡Spot&OD。相对于固定节点,弹性降低60%资源。实现了降本增效的目的。

image.png

我们未来需要去做Spark/Flink/Presto容器化离在线混部。之后帮助我们业务提升它的稳定性,控制成本,提升效率所以我理解云和我们团队的价值所在,就两个字”效率,效率有成本稳定性,二者缺一不可。

相关实践学习
巧用云服务器ECS制作节日贺卡
本场景带您体验如何在一台CentOS 7操作系统的ECS实例上,通过搭建web服务器,上传源码到web容器,制作节日贺卡网页。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
23天前
|
Cloud Native 持续交付 开发者
云原生技术在现代企业中的应用与实践####
本文深入探讨了云原生技术的核心概念及其在现代企业IT架构转型中的关键作用,通过具体案例分析展示了云原生如何促进企业的敏捷开发、高效运维及成本优化。不同于传统摘要仅概述内容,本部分旨在激发读者对云原生领域的兴趣,强调其在加速数字化转型过程中的不可或缺性,为后续详细论述奠定基础。 ####
|
6天前
|
存储 Kubernetes 开发者
容器化时代的领航者:Docker 和 Kubernetes 云原生时代的黄金搭档
Docker 是一种开源的应用容器引擎,允许开发者将应用程序及其依赖打包成可移植的镜像,并在任何支持 Docker 的平台上运行。其核心概念包括镜像、容器和仓库。镜像是只读的文件系统,容器是镜像的运行实例,仓库用于存储和分发镜像。Kubernetes(k8s)则是容器集群管理系统,提供自动化部署、扩展和维护等功能,支持服务发现、负载均衡、自动伸缩等特性。两者结合使用,可以实现高效的容器化应用管理和运维。Docker 主要用于单主机上的容器管理,而 Kubernetes 则专注于跨多主机的容器编排与调度。尽管 k8s 逐渐减少了对 Docker 作为容器运行时的支持,但 Doc
50 5
容器化时代的领航者:Docker 和 Kubernetes 云原生时代的黄金搭档
|
13天前
|
Cloud Native 安全 Java
铭师堂的云原生升级实践
铭师堂完整经历了云计算应用的四个关键阶段:从”启动上云”到”全量上云”,再到”全栈用云”,最终达到”精益用云”。通过 MSE 云原生网关的落地,为我们的组织带来了诸多收益,SLA 提升至100%,财务成本降低67%,算力成本降低75%,每次请求 RT 减少5ms。
铭师堂的云原生升级实践
|
18天前
|
人工智能 运维 监控
阿里云ACK容器服务生产级可观测体系建设实践
本文整理自2024云栖大会冯诗淳(花名:行疾)的演讲,介绍了阿里云容器服务团队在生产级可观测体系建设方面的实践。冯诗淳详细阐述了容器化架构带来的挑战及解决方案,强调了可观测性对于构建稳健运维体系的重要性。文中提到,阿里云作为亚洲唯一蝉联全球领导者的容器管理平台,其可观测能力在多项关键评测中表现优异,支持AI、容器网络、存储等多个场景的高级容器可观测能力。此外,还介绍了阿里云容器服务在多云管理、成本优化等方面的最新进展,以及即将推出的ACK AI助手2.0,旨在通过智能引擎和专家诊断经验,简化异常数据查找,缩短故障响应时间。
阿里云ACK容器服务生产级可观测体系建设实践
|
18天前
|
供应链 安全 Cloud Native
阿里云容器服务助力企业构建云原生软件供应链安全
本文基于2024云栖大会演讲,探讨了软件供应链攻击的快速增长趋势及对企业安全的挑战。文中介绍了如何利用阿里云容器服务ACK、ACR和ASM构建云原生软件供应链安全,涵盖容器镜像的可信生产、管理和分发,以及服务网格ASM实现应用无感的零信任安全,确保企业在软件开发和部署过程中的安全性。
|
12天前
|
Cloud Native 安全 Java
杭州铭师堂的云原生升级实践
在短短 2-3 年间,杭州铭师堂完整经历了云计算应用的四个关键阶段:从“启动上云”到“全量上云”,再到“全栈用云”,最终达到“精益用云”。也从云计算的第一次浪潮,迈过了第二次浪潮,顺利的进入到了 第三次浪潮 AI + 云。
|
12天前
|
Cloud Native
邀您参加云原生高可用技术沙龙丨云上高可用体系构建:从理论到实践
云原生高可用技术专场,邀您从理论到实践一起交流,探索云上高可用体系构建!
|
18天前
|
人工智能 Kubernetes Cloud Native
阿里云容器服务,智算时代云原生操作系统
2024云栖大会,阿里巴巴研究员易立分享了阿里云容器服务的最新进展。容器技术已成为云原生操作系统的基石,支持多样化的应用场景,如自动驾驶、AI训练等。阿里云容器服务覆盖公共云、边缘云、IDC,提供统一的基础设施,助力客户实现数字化转型和技术创新。今年,阿里云在弹性计算、网络优化、存储解决方案等方面进行了多项重要升级,进一步提升了性能和可靠性。
|
18天前
|
人工智能 Cloud Native 调度
阿里云容器服务在AI智算场景的创新与实践
本文源自张凯在2024云栖大会的演讲,介绍了阿里云容器服务在AI智算领域的创新与实践。从2018年推出首个开源GPU容器共享调度方案至今,阿里云容器服务不断推进云原生AI的发展,包括增强GPU可观测性、实现多集群跨地域统一调度、优化大模型推理引擎部署、提供灵活的弹性伸缩策略等,旨在为客户提供高效、低成本的云原生AI解决方案。
|
18天前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
阿里云容器服务ACK提供强大的产品能力,支持弹性、调度、可观测、成本治理和安全合规。针对拥有IDC或三方资源的企业,ACK One分布式云容器平台能够有效解决资源管理、多云多集群管理及边缘计算等挑战,实现云上云下统一管理,提升业务效率与稳定性。

相关产品

  • 容器计算服务