5.3.2 资源隔离技术
技术方案简介
混部就是将不同类型的业务在同一台机器上混合部署起来,让它们共享机器上的CPU、内存、IO等资源,目的就是最大限度地提高 资源利用率,从而降低采购和运营等成本。混部通常是将不同优先级的任务混合在一起,例如高优先的实时任务(对时延敏感,资源 消耗低;称为在线)和低优先级批处理任务(对时延不敏感,资源消耗高;称为离线),当高优先级业务需要资源时,低优先级任务需 要立即归还,并且低优先级任务的运行不能对高优先级任务造成明显干扰。
为了满足混部的需求,在单机维度的内核资源隔离技术是最为关键的一项技术,龙蜥云内核在资源隔离的技术上深耕多年,并且在 行业中处于领先地位,这些内核资源隔离技术主要涉及内核中的调度、内存和IO这三大子系统,并且在各个子系统领域根据云原生 的混部场景进行了深入的改造和优化,关键优化包括但不限于:cpu group identity技术,SMT expeller技术,基于cgroup的内存 异步回收技术等。这些关键的技术使客户有能力在云原生混部场景中根据业务特点给出最优解决方案,可有效提高用户的资源使用 率并最终降低用户资源的使用成本,非常适用于容器云混部场景,同时也是大规模化混合部署方案所强依赖的关键技术。
规模化部署和收益
目前龙蜥OS的资源隔离技术已经在手机制造企业、互联网企业、大型国企,以及阿里云、蚂蚁集团内部规模化应用。从以往众多用 户的部署经验来看,在保障客户的QoS的前提下CPU的使用率可以达到30%~50%,比如龙蜥和 Koordinator 开源混部技术带来的红 利,帮助阿里巴巴实现规模超千万核的云原生混部,混部CPU利用率超50%,帮助2021年“双11”计算成本下降50%,为客户降本 增效提供了良好的技术保障和售后服务。
技术竞争力
目前龙蜥社区的资源隔离方案,不仅仅在互联网、云计算场景得到规模化的应用,近年也在一些知名企业的私有云场景得到广泛应 用。并且,这一开源方案会持续在社区演进,形成最佳云原生实践,作为企业降本增效的重要手段之一,继续服务企业私有云建 设,以及阿里云的客户。龙蜥在资源隔离这块不管从源码透明度,还是从技术的深度,以及场景的广度都是用户第一选择。