助力Koordinator云原生单机混部,龙蜥混部技术提升CPU利用率达60%|龙蜥技术

简介: 龙蜥社区的三大原生技术为 Koordinator 社区提供了强大的 CPU 混部底层技术支持。

hellorf_2237907020.jpg

文/OpenAnolis Kernel SIG

01 什么是 CPU 混部

CPU 混部是指将不同类型的业务部署到同一台机器上运行,让它们共享机器上的 CPU 资源以提升 CPU 利用率,从而降低机器的采购和运营成本。但是,对于有些类型的任务来说,它们对延时非常的敏感,比如电商、搜索或 web 服务等,这类任务的实时性很高,但是通常对资源的消耗却不是很多,我们称之为在线任务;还有一类任务,它们更多的关注计算或者批处理,对延时没有要求,但是消耗的资源相对较多,我们称之为离线任务。

当这两类任务同时部署到同一台机器上时,由于离线任务对资源的占用较多,资源竞争导致在线任务的延时受到了很大的影响,而且,在超线程架构的机器上,即使离线任务和在线任务跑在不同的超线程 CPU 上,流水线和 cache 的竞争也会导致在线任务的运行受到影响。于是,CPU 混部技术诞生了,来解决离线任务对在线任务延时的影响,同时还能进一步提升 CPU 资源的利用率。

1.png

(图 1/混部单机 CPU 利用率示意图)

02 内核 CPU 混部技术

CPU 混部技术,主要是通过单机操作系统调度器来实现的,通过任务类型来决定所分配到的 CPU 资源。龙蜥社区的三大原生技术为 Koordinator 社区提供了强大的 CPU 混部底层技术支持,包括:

  • Group Identity 混部技术
  • Plugsched 调度器热升级技术
  • CPU 混部插件产品

2.1 龙蜥 Group Identity 技术

龙蜥社区的 CPU 混部技术——Group Identity 给操作系统内核提供了 CPU 混部能力,例如 Alibaba Cloud Linux 2/3 和 Anolis7/8 OS 发行版均使用的是该技术。Group Identity 技术是在原有的 CFS 调度器中新增了另一个运行队列来区分在线和离线任务,而且,为了避免对端 CPU(超线程架构)上离线任务的干扰,Group Identity 会对其进行驱逐。龙蜥的 Group Identity 技术已经经过阿里双十一等大型活动以及大规模商业化的验证,其 CPU 混部能力也得到广大用户和开发者的认可。

2.2 龙蜥 CPU 混部插件

Koordinator 单机操作系统主要是 Alinux2/3 和 CentOS 7.9,对于前者,其 CPU 混部技术来源于龙蜥的 Group Identity,但是对 CentOS 7.9 而言,其内核目前没有提供 CPU 混部能力。对于这种情况,可能有以下几种解决方案:

  1. 制作 CentOS 的衍生版系统,并包含 CPU 混部技术。
  2. 迁移到 Alibaba Cloud Linux 2/3 操作系统发行版。

对于第一种方案,需要从 CentOS 镜像站中下载其内核源码,将 CPU 混部技术移植到内核,编译后安装,然后重启系统便可以使用该技术,但这会涉及到业务迁移和停机,势必会给业务方带来昂贵的代价。

对于第二种方案,虽然迁移工作会有一定的工作量,但是,Alinux2/3 或 Anolis OS 包含了完整的混部资源隔离方案(CPU 混部仅仅是其中一点),技术红利所带来的收益远比迁移代价要大得多。而且 CentOS 即将停服,为了解决 CentOS 停服问题,龙蜥社区推出了 Anolis OS 发行版操作系统,该发行版系统完全兼容 CentOS,用户可以进行无缝迁移。

针对 Koordinator 云原生 CentOS 单机操作系统 CPU 混部能力的缺失,龙蜥社区开发人员给出了另一种方案,利用 plugsched 调度器热升级技术提供一种 CPU 混部技术的调度器插件包,该插件包含了阿里云早期(2017年)的 CPU 混部技术 bvt + noise clean,可直接安装到 CentOS 7.9,不需要停机和业务迁移等工作。

2.2.1 Plugsched 神器

Plugsched 调度器热升级,是龙蜥社区推出的 plugsched SDK 调度器热升级开发工具,它可从 Linux 内核中将调度器解耦,形成一个独立的模块,然后将 CPU 混部技术移植到调度器模块,形成一个调度器插件,然后将其直接安装到运行的系统中就可以使用 CPU 混部技术。Plugsched,可以对内核调度器特性动态的进行增、删、改,来满足业务的需求,且无需进行业务迁移和停机升级,还可以回滚。内核开发人员可通过 plugsched SDK 生产出各种类型的调度器插件来满足不同的业务场景。

Plugsched 调度器热升级论文《Efficient Scheduler Live Update for Linux Kernel with Modularization》已被 ASPLOS 顶会收录,里面详细介绍了 plugsched 技术原理和应用价值,以及全面的测试和评估。目前,plugsched 生产的插件已在蚂蚁集团、阿里云和国内某大型互联网企业规模部署。

Plugsched 开源链接:https://gitee.com/anolis/plugsched

2.2.2 Group Identity 测试

在 Koordinator 社区的在离线最佳实践手册中,对 Group Idnetity 混部技术做了测试,在线任务是 Nginx 服务,离线任务是 ffmpeg 视频转码,机器采用的是阿里云神龙裸金属服务器,系统发行版是 Alibaba Cloud Linux 2,系统内核是 Alibaba Cloud Kernel 4.19,里面搭载了龙蜥社区的 Group Identity CPU 混部技术,测试 case 如下:

基线:单独运行 Nginx 容器

对照组:同时运行 Nginx 容器和 ffmpeg 容器,不设置优先级

实验组:设置 Nginx 为在线高优先级任务,ffmpeg 为离线低优先级

压测机:在另一台服务器上使用 wrk 工具向 Nginx 服务发送请求

测试结果:(单位:ms)

  基线 对照组 实验组
RT-P90 0.533 0.574(+7.7%) 0.548(+2.8%)
RT-P99 0.93 1.58ms(+70%) 0.96(+3.2%)
CPU% 29.6% 85.6% 64.8%

(数据来源:阿里云 ACK 在离线混部最佳实践手册)

从对照组中可以看到,当在、离线任务同时运行时,在线任务 Nginx 的长尾延时受到了很大的影响,尤其是 P99 延时,增加了 70% 左右。但是,给在线容器和离线容器设置优先级后(启用 Group Identity 混部功能),Nginx 的 P90 和 P99 长尾延时受到的干扰非常小,延时仅增加了 2.8% 和 3.2%。

2.2.3 CPU 混部插件测试

为了比较 CPU 混部插件与 Group Identity 的性能差异,开发人员对该调度器插件进行了相同的测试,服务端配置:

测试机器:阿里云神龙裸金属服务器

系统配置:CentOS 7.9 发行版,内核版本 3.10,安装 CPU 混部调度器插件

在线容器和离线容器的配置与压力均与 Group Identity 测试的相同,测试结果如下:(单位:ms)

  基线 对照组 实验组
RT-P90 0.444 0.575(+29.50) 0.504(+13.51%)
RT-P99 0.706 1.7(+140.79) 0.88(+24.64%)
CPU% 25.15% 71.7% 49.15%

从上面的结果来看,没有 CPU 混部插件,离线任务对在线任务的影响很大,P99 延时增长了一倍多,而安装 CPU 混部插件后,P99 延时的影响显著降低,CPU 利用率也接近 50%。但是它的性能不及 Group Identity,Group Identity 能让在线任务受离线任务的干扰小于 5%(CPU 插件是 20% 以上),而且 CPU 利用率能达 60% 以上(CPU 插件接近 50%)。

2.3 Group Identity 更胜一筹

从上面的测试数据来看,不论是离线任务对在线任务的干扰,还是 CPU 利用率的提升,Group Identity 的性能均明显优于 Bvt + noise clean 插件。这是因为两套技术的实现原理不同导致的:noise clean 技术采用的是 throttle 机制,当调度器选择下一个任务时,它会检测对端 CPU 上的任务类型以及当前 CPU 正在执行的任务类型,如果在、离线任务同时存在,则会将离线任务 throttle 掉,然后继续选择下一个任务进行调度,保证在线任务优先执行且不被对端 CPU 上的离线干扰;而 Group Identity 则是给 CFS 调度器增加了低优先级的运行队列,每次选择下一个任务执行时,优先从高优先级队列中选择任务,而且新增了驱逐队列来驱逐对端 CPU 上正在执行的离线任务。从方案设计来看,Group Identity 的设计更加适用于 CPU 混部场景。


从技术演进上来看,龙蜥社区对 Group Identity 技术仍然在维护更新,而 bvt + noise clean 技术已不再更新迭代。再者,龙蜥社区有完整的混部资源隔离方案,而且下一代 CPU 混部技术 Group Identity v2.0 正在投入研发,将会带来更为强大的功能和性能。


对于 plugsched 调度器热升级而言,它对龙蜥社区的 cloud kernel 4.19 和 5.10 的支持更加全面,且会持续维护。但本文的 bvt + noise clean CPU 混部插件是支持在 CentOS 3.10 内核上,该内核不属于龙蜥社区,因此 plugsched 对该内核的支持度不是很高,热升级能力和范围不及龙蜥内核。Plugsched 对 3.10 内核的支持后续也不再更新和维护。

03 结语

最后,欢迎广大技术人员、开源爱好者和读者用户来体验、参与和使用龙蜥带来的 CPU 混部技术 Group Identity 和 Plugsched 神器。我们相信,不论是 Anolis OS、Cloud Kernel 还是 Plugsched,一定都会为各位看官带来意想不到的收益和价值。同时,欢迎广大技术人员、开源爱好者和读者用户一起加入龙蜥社区(入群方式见二维码),与社区共同进步和发展。

Cloud Kernel SIG 主页地址:

https://openanolis.cn/sig/Cloud-Kernel

—— 完 ——

加入龙蜥社群

加入微信群:添加社区助理-龙蜥社区小龙(微信:openanolis_assis),备注【龙蜥】与你同在;加入钉钉群:扫描下方钉钉群二维码。

KERNEL.png

相关文章
|
6月前
|
监控 Cloud Native Java
Quarkus 云原生Java框架技术详解与实践指南
本文档全面介绍 Quarkus 框架的核心概念、架构特性和实践应用。作为新一代的云原生 Java 框架,Quarkus 旨在为 OpenJDK HotSpot 和 GraalVM 量身定制,显著提升 Java 在容器化环境中的运行效率。本文将深入探讨其响应式编程模型、原生编译能力、扩展机制以及与微服务架构的深度集成,帮助开发者构建高效、轻量的云原生应用。
724 44
|
10月前
|
人工智能 Cloud Native 安全
云原生+AI 为企业出海提供全新技术引擎!明天见
5月22日 14:00「飞天发布时刻」,阿里云云原生应用平台产品负责人李国强将重磅揭晓面向 AI 场景的云原生产品体系升级,通过弹性智能的全球一体化架构、开箱即用的云原生 AI 工程化能力,为中国企业出海提供全新技术引擎。
|
5月前
|
Kubernetes Cloud Native 云计算
云计算与云原生技术探索
🌟蒋星熠Jaxonic,云原生探索者!以代码为舟,遨游技术星河。专注容器化、微服务、K8s与DevOps,践行GitOps理念,拥抱多云未来。用架构编织星辰,让创新照亮极客征途!
云计算与云原生技术探索
|
5月前
|
Java Linux 虚拟化
【Docker】(1)Docker的概述与架构,手把手带你安装Docker,云原生路上不可缺少的一门技术!
1. Docker简介 1.1 Docker是什么 为什么docker会出现? 假定您在开发一款平台项目,您的开发环境具有特定的配置。其他开发人员身处的环境配置也各有不同。 您正在开发的应用依赖于您当前的配置且还要依赖于某些配置文件。 您的企业还拥有标准化的测试和生产环境,且具有自身的配置和一系列支持文件。 **要求:**希望尽可能多在本地模拟这些环境而不产生重新创建服务器环境的开销 问题: 要如何确保应用能够在这些环境中运行和通过质量检测? 在部署过程中不出现令人头疼的版本、配置问题 无需重新编写代码和进行故障修复
517 2
|
10月前
|
存储 缓存 分布式计算
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
本文将深入探讨基于 StarRocks 和 Iceberg 构建的云原生湖仓分析技术,详细解析两者结合如何实现高效的查询性能优化。内容涵盖 StarRocks Lakehouse 架构、与 Iceberg 的性能协同、最佳实践应用以及未来的发展规划,为您提供全面的技术解读。 作者:杨关锁,北京镜舟科技研发工程师
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
|
8月前
|
缓存 Cloud Native Java
Java 面试微服务架构与云原生技术实操内容及核心考点梳理 Java 面试
本内容涵盖Java面试核心技术实操,包括微服务架构(Spring Cloud Alibaba)、响应式编程(WebFlux)、容器化(Docker+K8s)、函数式编程、多级缓存、分库分表、链路追踪(Skywalking)等大厂高频考点,助你系统提升面试能力。
828 0
|
6月前
|
缓存 人工智能 算法
不同业务怎么选服务器?CPU / 内存 / 带宽配置表
本文详解了服务器三大核心配置——CPU、内存、带宽,帮助读者快速理解服务器性能原理。结合不同业务场景,如个人博客、电商、数据库、直播等,提供配置选择建议,并强调合理搭配的重要性,避免资源浪费或瓶颈限制。内容实用,适合初学者和业务选型参考。
981 0
|
6月前
|
存储 消息中间件 缓存
从纳秒到毫秒的“时空之旅”:CPU是如何看待内存与硬盘的?
在数据爆炸的时代,如何高效存储与管理海量数据成为系统设计的核心挑战。本文从计算机存储体系结构出发,解析B+树、LSM树与Kafka日志结构在不同数据库中的应用与优化策略,帮助你深入理解高性能存储背后的原理。
207 0
|
8月前
|
存储
阿里云轻量应用服务器收费标准价格表:200Mbps带宽、CPU内存及存储配置详解
阿里云香港轻量应用服务器,200Mbps带宽,免备案,支持多IP及国际线路,月租25元起,年付享8.5折优惠,适用于网站、应用等多种场景。
2733 0

热门文章

最新文章