首次!统一调度系统规模化落地,全面支撑阿里巴巴双 11 全业务

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
云消息队列RocketMQ,TPS总和2000次/秒
简介: 今年双 11 首次规模化亮相的统一调度,通过一套调度协议、一套系统架构,统一管理底层的计算、存储、网络资源,超大规模、高效率、自动化的资源弹性,实现了业界新的突破。在离线混部、离在线混部、新的快上快下技术,减少数万台服务器采购,带来数亿计的资源成本优化和大促效率提升。
+关注继续查看

01 背景


统一调度项目 1.0 成功支持 2021 年双 11 大促,统一调度方案实现了从容器调度到快上快下全流程的全面升级和优化。项目组 100 多位核心成员,成功走过了立项、POC、方案评审设计、封闭开发测试、大促冲刺各个阶段,历经考验成功上线。


作为阿里巴巴的核心项目,阿里云(容器团队和大数据团队)联合阿里巴巴资源效能团队、蚂蚁容器编排团队,历时一年多研发和技术攻坚,实现了从“混部技术”到今天“统一调度技术”的全面升级。


今天,统一调度已实现阿里巴巴电商、搜推广、MaxCompute 大数据和蚂蚁业务的调度全面统一,实现了 pod 调度和 task 高性能调度的统一,实现了完整的资源视图统一和调度协同,实现了多种复杂业务形态的混部和利用率提升,全面支撑了全球数十个数据中心、数百万容器、数千万核的大规模资源调度。


Dingtalk_20211112173450.jpg

云原生产品家族


02 统一调度技术全面升级


云计算的本质,就是把小的计算碎片变成更大的资源池,充分削峰填谷,提供极致的能效比。对数据中心低碳节能、绿色环保、科技发展、更高效运转的追求下,阿里巴巴对技术的探索永无止境。阿里的技术人有一个理想,让数据中心的算力成为水、电、气一样的基础设施,开箱即用。


为了让业务间峰谷互补的优势发挥到最大,过去我们构建了混部技术,打破多资源池的割裂,不同计算领域的多调度大脑协同共用资源;老一代的混部技术带来了资源的统一和利用率的巨大提升,但多调度器的本质让我们的追求受限。


阿里巴巴持续追求构建可支撑更多复杂任务无差别混部、极致弹性互补、领先的新一代调度技术,实现极致的全局最优调度,提供更高质量的算力。今年我们在技术上到达一个新的临界点,容器服务 ACK 牵头并协同众多团队,启动了基于 ACK 的新一代统一调度项目。


Dingtalk_20211115103817.jpg

image.gif容器产品家族


今年双 11 首次规模化亮相的统一调度,通过一套调度协议、一套系统架构,统一管理底层的计算、存储、网络资源,超大规模、高效率、自动化的资源弹性,实现了业界新的突破。在离线混部、离在线混部、新的快上快下技术,减少数万台服务器采购,带来数亿计的资源成本优化和大促效率提升。


今年首次引入大规模数据智能来进一步丰富调度能力,提供了包括实时的负载感知,自动规格推荐(VPA),差异化 SLO 工作负载编排,CPU 归一化,支持周期性预测的 HPA,分时复用等,提供了更多维度的成本优化技术和高可靠的容器运行时保障。


围绕着新一代的统一调度,阿里巴巴电商、搜索、大数据等众多平台、不同类型的复杂计算资源都以一致的方式申请资源,统筹的额度管理和资源规划,数十万核资源借用秒级即可完成。基于统一调度,阿里云与蚂蚁也实现了调度技术融合,蚂蚁生态全面升级为统一调度。调度平台为未来带来更多想象空间,例如,我们可以通过众多手段,例如价格杠杆等经济因素,驱动阿里内部的业务更合理使用各个数据中心的资源,确保数据中心全局资源水位尽可能平衡,以改进数据中心的能效比。


阿里云容器服务 ACK 对标准 Kubernetes 进一步增强,更高性能吞吐和更低的响应延迟构建稳定可靠的超大规模单集群能力,平稳支撑了 1.2 万节点超 100 万核的超大规模集群、为统一调度大资源池化的生产运行提供了坚实的基座。阿里巴巴众多类型的复杂资源也实现了基于容器服务底座 ACK 的全面融合升级。


除电商、搜索、大数据等阿里经典场景外,统一调度也极大的赋能了新型的技术创新。以直播电商场景为例,决策对实时计算的需求很高,比如薇娅双 11 直播间 9 千多万在线观看人数的产生的浏览、交易等实时数据的秒级数据分析。今年阿里将实时计算引擎 Blink 升级为基于统一调度的新一代引擎,在成本、性能、稳定性以及用户体验上获得大幅提高,大规模作业拉起性能相比 Yarn 提速 40%,错误恢复效率提升 100%,通过统一调度技术在双 11 大促备战接节省数十万 CPU,在集群 CPU 水位超过 65% 时,实现全局零热点,保障了各直播推流的时效性。


在 Serverless 方面,函数服务首次在集团内得到大规模落地,并应用于双 11 支撑了淘宝搜索推荐、数据处理、前端 SSR 等 10 多个业务场景。借助统一调度技术,函数计算可以和阿里资源池内实现大规模混跑,充分利用集群的碎片资源,彻底解决了 Serverless 场景在流量低峰期的资源闲置成本问题。基于 ACK 镜像按需加载和网络栈优化,函数实例的冷启动时间小于 150ms,并结合池化技术保证了函数计算容器的冷启动率小于 5%,这是保证双 11 大促成功的关键。


2021阿里巴巴双11 十大技术亮点.png


03 未来展望


未来,容器服务 ACK 将阿里巴巴统一调度的经验输出到整个行业,支撑更多新型计算负载生态、新型技术形态的架构演进,实现云计算无处不在,全面赋能更多的企业,释放更大的低碳价值红利。

相关实践学习
Docker镜像管理快速入门
本教程将介绍如何使用Docker构建镜像,并通过阿里云镜像服务分发到ECS服务器,运行该镜像。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
25天前
|
数据采集 调度 监控
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——3. 研发:高效建设,稳定运行
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——3. 研发:高效建设,稳定运行
|
4月前
|
数据采集 安全 大数据
大型集团企业数据治理方案,以“应用驱动”的数据治理策略 | 行业方案
袋鼠云大型集团企业数据治理方案来啦!该数据治理策略以业务应用带动数据治理的能力建设,以业务创新推动数据治理的价值体现。
69 0
|
7月前
|
存储 监控 安全
时刻为创新提速|阿里云多款核心产品能力全面升级
5月17日上午,主题为“智在江苏,为创新提速”的2023阿里云峰会在常州市召开。
时刻为创新提速|阿里云多款核心产品能力全面升级
|
7月前
|
运维 Prometheus 监控
《2023云原生实战案例集》——01 汽车/制造——传音 基于ARMS构建全球一体化可观测平台,高效支撑业务创新
《2023云原生实战案例集》——01 汽车/制造——传音 基于ARMS构建全球一体化可观测平台,高效支撑业务创新
|
存储 并行计算 数据可视化
数据服务系统0到1落地实现方案
基于业务场景做好服务的划分和设计,以及公共服务的基础构建,确保业务层的架构合理且可扩展,是否合理的基本考量就是,不断的新增业务场景是否需要做系统的大刀阔斧的改版,如果服务能力不断丰富,系统的改造成本很小,自然架构合理。
159 0
数据服务系统0到1落地实现方案
|
弹性计算 编解码 人工智能
阿里云发布企业云原生IT成本治理方案:五大能力加速企业 FinOps 进程
阿里云企业云原生 IT 成本治理方案助力企业落地企业 IT 成本治理的理念、工具与流程,让企业在云原生化的过程中可以数字化地实现企业 IT 成本管理与优化,成为 FinOps 领域的践行者与领先者。
736 0
阿里云发布企业云原生IT成本治理方案:五大能力加速企业 FinOps 进程
|
数据挖掘 定位技术 双11
解决方案应用实例 |依靠阿里云数据中台,九阳突破转型瓶颈
2020年的天猫618,首次在大型活动中尝鲜阿里云数据中台零售行业解决方案的九阳,打了一场漂亮的仗。天猫618开场当天,九阳免洗豆浆机成交同比暴增230%,6月16日0点40分,天猫销售额突破2300万,同比超过2019年全天,截至当晚23:30,成交额已经超过去年三天总和。
303 0
解决方案应用实例 |依靠阿里云数据中台,九阳突破转型瓶颈
|
新零售 供应链 数据管理
解决方案应用实例 |“业务+数据”双中台驱动,源氏木语构建数字化平台
源氏木语携手阿里云,基于业务中台和数据中台双轮驱动,进行新一代数字化系统重建,深化销售数字化能力,打通全链路供应链闭环,实现围绕业务的全面数字化支撑。
411 0
解决方案应用实例 |“业务+数据”双中台驱动,源氏木语构建数字化平台
|
新零售 运维 供应链
解决方案应用实例 |依托业务中台,阿里云促进远大商业数字化建设
远大商业通过与阿里云的合作,搭建了一套新的系统架构——企业互联网架构。建设了远大购物中心的企业业务中台、全渠道会员营销系统、全渠道运营系统、网上微商城的业务,完成了企业数字化建设。
330 0
解决方案应用实例 |依托业务中台,阿里云促进远大商业数字化建设
|
新零售 弹性计算 数据挖掘
解决方案应用实例 |从传统大卖场到新零售,阿里云推动大润发重构升级
近年来传统大卖场营收持续下滑,必须通过业务创新走出困境。在新零售线下融合的大背景下,大润发开启与阿里云的合作,推动大卖场重构。
2764 1
解决方案应用实例 |从传统大卖场到新零售,阿里云推动大润发重构升级
热门文章
最新文章
相关产品
云消息队列 MQ
微服务引擎
云消息队列 Kafka 版
推荐文章
更多