助力Koordinator云原生单机混部,龙蜥混部技术提升CPU利用率达60%|龙蜥技术

简介: 龙蜥社区的三大原生技术为 Koordinator 社区提供了强大的 CPU 混部底层技术支持。

hellorf_2237907020.jpg

文/OpenAnolis Kernel SIG

01 什么是 CPU 混部

CPU 混部是指将不同类型的业务部署到同一台机器上运行,让它们共享机器上的 CPU 资源以提升 CPU 利用率,从而降低机器的采购和运营成本。但是,对于有些类型的任务来说,它们对延时非常的敏感,比如电商、搜索或 web 服务等,这类任务的实时性很高,但是通常对资源的消耗却不是很多,我们称之为在线任务;还有一类任务,它们更多的关注计算或者批处理,对延时没有要求,但是消耗的资源相对较多,我们称之为离线任务。

当这两类任务同时部署到同一台机器上时,由于离线任务对资源的占用较多,资源竞争导致在线任务的延时受到了很大的影响,而且,在超线程架构的机器上,即使离线任务和在线任务跑在不同的超线程 CPU 上,流水线和 cache 的竞争也会导致在线任务的运行受到影响。于是,CPU 混部技术诞生了,来解决离线任务对在线任务延时的影响,同时还能进一步提升 CPU 资源的利用率。

1.png

(图 1/混部单机 CPU 利用率示意图)

02 内核 CPU 混部技术

CPU 混部技术,主要是通过单机操作系统调度器来实现的,通过任务类型来决定所分配到的 CPU 资源。龙蜥社区的三大原生技术为 Koordinator 社区提供了强大的 CPU 混部底层技术支持,包括:

  • Group Identity 混部技术
  • Plugsched 调度器热升级技术
  • CPU 混部插件产品

2.1 龙蜥 Group Identity 技术

龙蜥社区的 CPU 混部技术——Group Identity 给操作系统内核提供了 CPU 混部能力,例如 Alibaba Cloud Linux 2/3 和 Anolis7/8 OS 发行版均使用的是该技术。Group Identity 技术是在原有的 CFS 调度器中新增了另一个运行队列来区分在线和离线任务,而且,为了避免对端 CPU(超线程架构)上离线任务的干扰,Group Identity 会对其进行驱逐。龙蜥的 Group Identity 技术已经经过阿里双十一等大型活动以及大规模商业化的验证,其 CPU 混部能力也得到广大用户和开发者的认可。

2.2 龙蜥 CPU 混部插件

Koordinator 单机操作系统主要是 Alinux2/3 和 CentOS 7.9,对于前者,其 CPU 混部技术来源于龙蜥的 Group Identity,但是对 CentOS 7.9 而言,其内核目前没有提供 CPU 混部能力。对于这种情况,可能有以下几种解决方案:

  1. 制作 CentOS 的衍生版系统,并包含 CPU 混部技术。
  2. 迁移到 Alibaba Cloud Linux 2/3 操作系统发行版。

对于第一种方案,需要从 CentOS 镜像站中下载其内核源码,将 CPU 混部技术移植到内核,编译后安装,然后重启系统便可以使用该技术,但这会涉及到业务迁移和停机,势必会给业务方带来昂贵的代价。

对于第二种方案,虽然迁移工作会有一定的工作量,但是,Alinux2/3 或 Anolis OS 包含了完整的混部资源隔离方案(CPU 混部仅仅是其中一点),技术红利所带来的收益远比迁移代价要大得多。而且 CentOS 即将停服,为了解决 CentOS 停服问题,龙蜥社区推出了 Anolis OS 发行版操作系统,该发行版系统完全兼容 CentOS,用户可以进行无缝迁移。

针对 Koordinator 云原生 CentOS 单机操作系统 CPU 混部能力的缺失,龙蜥社区开发人员给出了另一种方案,利用 plugsched 调度器热升级技术提供一种 CPU 混部技术的调度器插件包,该插件包含了阿里云早期(2017年)的 CPU 混部技术 bvt + noise clean,可直接安装到 CentOS 7.9,不需要停机和业务迁移等工作。

2.2.1 Plugsched 神器

Plugsched 调度器热升级,是龙蜥社区推出的 plugsched SDK 调度器热升级开发工具,它可从 Linux 内核中将调度器解耦,形成一个独立的模块,然后将 CPU 混部技术移植到调度器模块,形成一个调度器插件,然后将其直接安装到运行的系统中就可以使用 CPU 混部技术。Plugsched,可以对内核调度器特性动态的进行增、删、改,来满足业务的需求,且无需进行业务迁移和停机升级,还可以回滚。内核开发人员可通过 plugsched SDK 生产出各种类型的调度器插件来满足不同的业务场景。

Plugsched 调度器热升级论文《Efficient Scheduler Live Update for Linux Kernel with Modularization》已被 ASPLOS 顶会收录,里面详细介绍了 plugsched 技术原理和应用价值,以及全面的测试和评估。目前,plugsched 生产的插件已在蚂蚁集团、阿里云和国内某大型互联网企业规模部署。

Plugsched 开源链接:https://gitee.com/anolis/plugsched

2.2.2 Group Identity 测试

在 Koordinator 社区的在离线最佳实践手册中,对 Group Idnetity 混部技术做了测试,在线任务是 Nginx 服务,离线任务是 ffmpeg 视频转码,机器采用的是阿里云神龙裸金属服务器,系统发行版是 Alibaba Cloud Linux 2,系统内核是 Alibaba Cloud Kernel 4.19,里面搭载了龙蜥社区的 Group Identity CPU 混部技术,测试 case 如下:

基线:单独运行 Nginx 容器

对照组:同时运行 Nginx 容器和 ffmpeg 容器,不设置优先级

实验组:设置 Nginx 为在线高优先级任务,ffmpeg 为离线低优先级

压测机:在另一台服务器上使用 wrk 工具向 Nginx 服务发送请求

测试结果:(单位:ms)

  基线 对照组 实验组
RT-P90 0.533 0.574(+7.7%) 0.548(+2.8%)
RT-P99 0.93 1.58ms(+70%) 0.96(+3.2%)
CPU% 29.6% 85.6% 64.8%

(数据来源:阿里云 ACK 在离线混部最佳实践手册)

从对照组中可以看到,当在、离线任务同时运行时,在线任务 Nginx 的长尾延时受到了很大的影响,尤其是 P99 延时,增加了 70% 左右。但是,给在线容器和离线容器设置优先级后(启用 Group Identity 混部功能),Nginx 的 P90 和 P99 长尾延时受到的干扰非常小,延时仅增加了 2.8% 和 3.2%。

2.2.3 CPU 混部插件测试

为了比较 CPU 混部插件与 Group Identity 的性能差异,开发人员对该调度器插件进行了相同的测试,服务端配置:

测试机器:阿里云神龙裸金属服务器

系统配置:CentOS 7.9 发行版,内核版本 3.10,安装 CPU 混部调度器插件

在线容器和离线容器的配置与压力均与 Group Identity 测试的相同,测试结果如下:(单位:ms)

  基线 对照组 实验组
RT-P90 0.444 0.575(+29.50) 0.504(+13.51%)
RT-P99 0.706 1.7(+140.79) 0.88(+24.64%)
CPU% 25.15% 71.7% 49.15%

从上面的结果来看,没有 CPU 混部插件,离线任务对在线任务的影响很大,P99 延时增长了一倍多,而安装 CPU 混部插件后,P99 延时的影响显著降低,CPU 利用率也接近 50%。但是它的性能不及 Group Identity,Group Identity 能让在线任务受离线任务的干扰小于 5%(CPU 插件是 20% 以上),而且 CPU 利用率能达 60% 以上(CPU 插件接近 50%)。

2.3 Group Identity 更胜一筹

从上面的测试数据来看,不论是离线任务对在线任务的干扰,还是 CPU 利用率的提升,Group Identity 的性能均明显优于 Bvt + noise clean 插件。这是因为两套技术的实现原理不同导致的:noise clean 技术采用的是 throttle 机制,当调度器选择下一个任务时,它会检测对端 CPU 上的任务类型以及当前 CPU 正在执行的任务类型,如果在、离线任务同时存在,则会将离线任务 throttle 掉,然后继续选择下一个任务进行调度,保证在线任务优先执行且不被对端 CPU 上的离线干扰;而 Group Identity 则是给 CFS 调度器增加了低优先级的运行队列,每次选择下一个任务执行时,优先从高优先级队列中选择任务,而且新增了驱逐队列来驱逐对端 CPU 上正在执行的离线任务。从方案设计来看,Group Identity 的设计更加适用于 CPU 混部场景。


从技术演进上来看,龙蜥社区对 Group Identity 技术仍然在维护更新,而 bvt + noise clean 技术已不再更新迭代。再者,龙蜥社区有完整的混部资源隔离方案,而且下一代 CPU 混部技术 Group Identity v2.0 正在投入研发,将会带来更为强大的功能和性能。


对于 plugsched 调度器热升级而言,它对龙蜥社区的 cloud kernel 4.19 和 5.10 的支持更加全面,且会持续维护。但本文的 bvt + noise clean CPU 混部插件是支持在 CentOS 3.10 内核上,该内核不属于龙蜥社区,因此 plugsched 对该内核的支持度不是很高,热升级能力和范围不及龙蜥内核。Plugsched 对 3.10 内核的支持后续也不再更新和维护。

03 结语

最后,欢迎广大技术人员、开源爱好者和读者用户来体验、参与和使用龙蜥带来的 CPU 混部技术 Group Identity 和 Plugsched 神器。我们相信,不论是 Anolis OS、Cloud Kernel 还是 Plugsched,一定都会为各位看官带来意想不到的收益和价值。同时,欢迎广大技术人员、开源爱好者和读者用户一起加入龙蜥社区(入群方式见二维码),与社区共同进步和发展。

Cloud Kernel SIG 主页地址:

https://openanolis.cn/sig/Cloud-Kernel

—— 完 ——

加入龙蜥社群

加入微信群:添加社区助理-龙蜥社区小龙(微信:openanolis_assis),备注【龙蜥】与你同在;加入钉钉群:扫描下方钉钉群二维码。

KERNEL.png

相关文章
|
6天前
|
运维 Cloud Native 持续交付
构建未来:云原生技术在企业数字化转型中的关键作用
【4月更文挑战第21天】 随着企业逐渐转向数字化运营,云原生技术以其独特的优势成为了推动转型的核心力量。本文将探讨云原生技术如何通过提供灵活、可扩展的解决方案来帮助企业应对不断变化的市场需求,同时确保系统的可靠性和安全性。我们将深入分析容器化、微服务架构、持续集成与持续部署(CI/CD)等关键技术,并讨论它们如何共同作用于企业的云原生旅程。
20 5
|
5天前
|
Cloud Native Serverless 开发者
阿里云助力开发者创新:探索云原生技术的新境界
阿里云开发者社区推动云原生技术发展,提供丰富产品(如容器服务、Serverless、微服务架构、服务网格)与学习平台,助力企业数字化转型。开发者在此探索实践,共享资源,参与技术活动,共同创新,共创云原生技术新篇章。一起加入,开启精彩旅程!
83 2
|
19天前
|
Cloud Native 安全 开发者
云原生技术的未来演进与应用展望
【4月更文挑战第9天】 随着企业数字化转型的不断深入,云原生技术以其独特的弹性、敏捷性和可扩展性成为推动创新的重要力量。本文将探讨云原生技术的发展趋势,分析其在各行各业中的应用前景,并针对未来的挑战提出相应的对策和建议。我们还将讨论如何利用云原生技术优化资源配置,提高业务连续性,并最终实现企业的技术升级和价值增长。
|
1天前
|
Cloud Native Devops 持续交付
构建未来:云原生技术在企业数字化转型中的关键作用
【4月更文挑战第27天】 随着企业加速其数字化转型的步伐,云原生技术已经成为实现业务敏捷性、可扩展性和创新能力的关键因素。本文将探讨云原生技术如何推动企业从传统的IT架构向更加灵活和响应迅速的系统演进,以及这些技术如何帮助企业保持竞争优势并优化资源利用。通过对云原生生态系统中的关键技术如容器化、微服务、持续集成/持续部署(CI/CD)、DevOps和云服务管理等的深入分析,我们将揭示它们如何共同作用,为企业提供一条清晰的数字化道路。
|
10天前
|
Cloud Native Devops 持续交付
构建未来:云原生技术在企业数字化转型中的关键角色
【4月更文挑战第18天】 随着企业加速其数字化转型的步伐,云原生技术已成为推动创新与维护企业敏捷性的基石。本文将深入探讨云原生的概念、核心技术以及如何在企业环境中实现有效部署。我们将剖析容器化、微服务架构、DevOps和持续集成/持续部署(CI/CD)等关键技术,并讨论它们如何共同塑造一个灵活、可扩展且高效的云环境。文章还将展示通过采用云原生实践,企业能够如何优化资源利用、加快产品上市时间,并提供一流的客户体验。
|
26天前
|
人工智能 Cloud Native 物联网
探索云原生技术的发展趋势与应用前景
在当今数字化时代,云原生技术已经成为企业数字化转型的核心驱动力之一。本文将深入探讨云原生技术的发展趋势和应用前景,分析其在大数据、人工智能、物联网等领域的应用,并探讨未来可能的发展方向。
12 1
|
27天前
|
运维 Cloud Native 云计算
云原生技术:构建灵活高效的应用生态
随着云计算技术的不断发展,云原生技术作为一种全新的应用开发和部署模式,正逐渐成为业界关注的焦点。本文将介绍云原生技术的基本概念、优势以及在构建灵活高效的应用生态方面的应用实践,以期为读者提供全面了解云原生技术的视角。
|
30天前
|
Java fastjson 数据安全/隐私保护
【Dubbo3技术专题】「云原生微服务开发实战」 一同探索和分析研究RPC服务的底层原理和实现
【Dubbo3技术专题】「云原生微服务开发实战」 一同探索和分析研究RPC服务的底层原理和实现
40 0
|
30天前
|
Cloud Native Dubbo 应用服务中间件
【Dubbo3技术专题】拥有新时代的通信协议,引领云原生迈向更高的舞台 | 解密Dubbo3是如何从微服务升华到云原生领域
【Dubbo3技术专题】拥有新时代的通信协议,引领云原生迈向更高的舞台 | 解密Dubbo3是如何从微服务升华到云原生领域
39 1
|
30天前
|
运维 Cloud Native 云计算
云原生技术在企业信息化中的应用与挑战
随着云计算技术的快速发展,云原生技术作为一种新兴的应用方式,正逐渐成为企业信息化转型中的热门话题。本文将探讨云原生技术在企业信息化中的应用现状、优势以及面临的挑战,并结合具体案例分析其实际效益和发展趋势。
16 3

热门文章

最新文章