首次!统一调度系统规模化落地,全面支撑阿里巴巴双 11 全业务

本文涉及的产品
性能测试 PTS,5000VUM额度
注册配置 MSE Nacos/ZooKeeper,118元/月
云原生网关 MSE Higress,422元/月
简介: 今年双 11 首次规模化亮相的统一调度,通过一套调度协议、一套系统架构,统一管理底层的计算、存储、网络资源,超大规模、高效率、自动化的资源弹性,实现了业界新的突破。在离线混部、离在线混部、新的快上快下技术,减少数万台服务器采购,带来数亿计的资源成本优化和大促效率提升。

01 背景


统一调度项目 1.0 成功支持 2021 年双 11 大促,统一调度方案实现了从容器调度到快上快下全流程的全面升级和优化。项目组 100 多位核心成员,成功走过了立项、POC、方案评审设计、封闭开发测试、大促冲刺各个阶段,历经考验成功上线。


作为阿里巴巴的核心项目,阿里云(容器团队和大数据团队)联合阿里巴巴资源效能团队、蚂蚁容器编排团队,历时一年多研发和技术攻坚,实现了从“混部技术”到今天“统一调度技术”的全面升级。


今天,统一调度已实现阿里巴巴电商、搜推广、MaxCompute 大数据和蚂蚁业务的调度全面统一,实现了 pod 调度和 task 高性能调度的统一,实现了完整的资源视图统一和调度协同,实现了多种复杂业务形态的混部和利用率提升,全面支撑了全球数十个数据中心、数百万容器、数千万核的大规模资源调度。


Dingtalk_20211112173450.jpg

云原生产品家族


02 统一调度技术全面升级


云计算的本质,就是把小的计算碎片变成更大的资源池,充分削峰填谷,提供极致的能效比。对数据中心低碳节能、绿色环保、科技发展、更高效运转的追求下,阿里巴巴对技术的探索永无止境。阿里的技术人有一个理想,让数据中心的算力成为水、电、气一样的基础设施,开箱即用。


为了让业务间峰谷互补的优势发挥到最大,过去我们构建了混部技术,打破多资源池的割裂,不同计算领域的多调度大脑协同共用资源;老一代的混部技术带来了资源的统一和利用率的巨大提升,但多调度器的本质让我们的追求受限。


阿里巴巴持续追求构建可支撑更多复杂任务无差别混部、极致弹性互补、领先的新一代调度技术,实现极致的全局最优调度,提供更高质量的算力。今年我们在技术上到达一个新的临界点,容器服务 ACK 牵头并协同众多团队,启动了基于 ACK 的新一代统一调度项目。


Dingtalk_20211115103817.jpg

image.gif容器产品家族


今年双 11 首次规模化亮相的统一调度,通过一套调度协议、一套系统架构,统一管理底层的计算、存储、网络资源,超大规模、高效率、自动化的资源弹性,实现了业界新的突破。在离线混部、离在线混部、新的快上快下技术,减少数万台服务器采购,带来数亿计的资源成本优化和大促效率提升。


今年首次引入大规模数据智能来进一步丰富调度能力,提供了包括实时的负载感知,自动规格推荐(VPA),差异化 SLO 工作负载编排,CPU 归一化,支持周期性预测的 HPA,分时复用等,提供了更多维度的成本优化技术和高可靠的容器运行时保障。


围绕着新一代的统一调度,阿里巴巴电商、搜索、大数据等众多平台、不同类型的复杂计算资源都以一致的方式申请资源,统筹的额度管理和资源规划,数十万核资源借用秒级即可完成。基于统一调度,阿里云与蚂蚁也实现了调度技术融合,蚂蚁生态全面升级为统一调度。调度平台为未来带来更多想象空间,例如,我们可以通过众多手段,例如价格杠杆等经济因素,驱动阿里内部的业务更合理使用各个数据中心的资源,确保数据中心全局资源水位尽可能平衡,以改进数据中心的能效比。


阿里云容器服务 ACK 对标准 Kubernetes 进一步增强,更高性能吞吐和更低的响应延迟构建稳定可靠的超大规模单集群能力,平稳支撑了 1.2 万节点超 100 万核的超大规模集群、为统一调度大资源池化的生产运行提供了坚实的基座。阿里巴巴众多类型的复杂资源也实现了基于容器服务底座 ACK 的全面融合升级。


除电商、搜索、大数据等阿里经典场景外,统一调度也极大的赋能了新型的技术创新。以直播电商场景为例,决策对实时计算的需求很高,比如薇娅双 11 直播间 9 千多万在线观看人数的产生的浏览、交易等实时数据的秒级数据分析。今年阿里将实时计算引擎 Blink 升级为基于统一调度的新一代引擎,在成本、性能、稳定性以及用户体验上获得大幅提高,大规模作业拉起性能相比 Yarn 提速 40%,错误恢复效率提升 100%,通过统一调度技术在双 11 大促备战接节省数十万 CPU,在集群 CPU 水位超过 65% 时,实现全局零热点,保障了各直播推流的时效性。


在 Serverless 方面,函数服务首次在集团内得到大规模落地,并应用于双 11 支撑了淘宝搜索推荐、数据处理、前端 SSR 等 10 多个业务场景。借助统一调度技术,函数计算可以和阿里资源池内实现大规模混跑,充分利用集群的碎片资源,彻底解决了 Serverless 场景在流量低峰期的资源闲置成本问题。基于 ACK 镜像按需加载和网络栈优化,函数实例的冷启动时间小于 150ms,并结合池化技术保证了函数计算容器的冷启动率小于 5%,这是保证双 11 大促成功的关键。


2021阿里巴巴双11 十大技术亮点.png


03 未来展望


未来,容器服务 ACK 将阿里巴巴统一调度的经验输出到整个行业,支撑更多新型计算负载生态、新型技术形态的架构演进,实现云计算无处不在,全面赋能更多的企业,释放更大的低碳价值红利。

相关实践学习
巧用云服务器ECS制作节日贺卡
本场景带您体验如何在一台CentOS 7操作系统的ECS实例上,通过搭建web服务器,上传源码到web容器,制作节日贺卡网页。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
7月前
大模型与其他业务系统打通是大模型产业落地的关键
【1月更文挑战第9天】大模型与其他业务系统打通是大模型产业落地的关键
172 3
大模型与其他业务系统打通是大模型产业落地的关键
|
数据采集 安全 大数据
大型集团企业数据治理方案,以“应用驱动”的数据治理策略 | 行业方案
袋鼠云大型集团企业数据治理方案来啦!该数据治理策略以业务应用带动数据治理的能力建设,以业务创新推动数据治理的价值体现。
396 0
|
安全 大数据
带你读《升舱 - 数据仓库升级交付标准白皮书》——4.1 行业变化与系统痛点
带你读《升舱 - 数据仓库升级交付标准白皮书》——4.1 行业变化与系统痛点
174 0
|
监控 Java Unix
支付宝精细化调度的技术演进
支付宝精细化调度的技术演进
167 0
|
数据采集 供应链 前端开发
业务数据双中台助力实现大型医药集团
业务数据双中台助力实现大型医药集团
217 0
|
弹性计算 编解码 人工智能
阿里云发布企业云原生IT成本治理方案:五大能力加速企业 FinOps 进程
阿里云企业云原生 IT 成本治理方案助力企业落地企业 IT 成本治理的理念、工具与流程,让企业在云原生化的过程中可以数字化地实现企业 IT 成本管理与优化,成为 FinOps 领域的践行者与领先者。
879 6
阿里云发布企业云原生IT成本治理方案:五大能力加速企业 FinOps 进程
|
SQL 存储 分布式计算
重构知识的供给模式 — 《数据平台》从思考到落地
我们想尝试去建立一套 “高度自动化&体系化的知识管理系统,重构知识的供给模式”
重构知识的供给模式 — 《数据平台》从思考到落地
|
缓存 监控 Cloud Native
阿里大规模业务混部下的全链路资源隔离技术演进
本文作为混部实践系列开篇,本篇文章将介绍资源隔离技术在混部中的重要性、其落地挑战及我们的应对思路。
阿里大规模业务混部下的全链路资源隔离技术演进
|
数据挖掘 定位技术 双11
解决方案应用实例 |依靠阿里云数据中台,九阳突破转型瓶颈
2020年的天猫618,首次在大型活动中尝鲜阿里云数据中台零售行业解决方案的九阳,打了一场漂亮的仗。天猫618开场当天,九阳免洗豆浆机成交同比暴增230%,6月16日0点40分,天猫销售额突破2300万,同比超过2019年全天,截至当晚23:30,成交额已经超过去年三天总和。
439 0
解决方案应用实例 |依靠阿里云数据中台,九阳突破转型瓶颈
|
SQL 存储 分布式计算
重构知识的供给模式 ——《数据平台》从思考到落地
如何去建立一套 “高度自动化&体系化的知识管理系统,重构知识的供给模式”。是不是看不懂?而且有点冲?是不是谜语人附体?别急,本文作者将会做详细的说明。
重构知识的供给模式 ——《数据平台》从思考到落地
下一篇
DataWorks