在日常生产中,在线服务应用为了确保较高的服务质量,往往会长期运行并且独占 CPU 资源,但 CPU 利用率却很低 ; 而离线计算任务正好相反,通常是短生命周期且对资源服务质 量要求不高,但运行期 CPU 利用率很高。随着业务规模的扩大,在线业务集群和离线集群资 源池逐步变大,由于存在业务低峰期,会遇到资源利用率的问题,一个比较明显的现象就是集 群的资源分配率很高但是实际利用率偏低。
金融机构在云原生架构建设过程中进行在线和离线集群混合部署,除了通过 CPU 弹性共 享和优先级抢占、离 / 在线应用错峰编排、应用 QoS 等级划分、内存分级管理等核心能力,以 资源隔离和动态调整为基础,将不同属性类型的在线服务和离线计算类服务进行精确组合,解 决资源错峰高效利用的问题外。对应到金融级的复杂性,需要建设如下混部能力标准:
◆ 大规模化、多场景的混部,将混部技术打造为业务运行的基础设施及环境,完善混部技术 能力输出,便于推广到其他资源环境;
◆ 打通混部管控与运维体系一致性。统一资源接入流程,确保基础软件、配等置全局一致性 维护与管理;
◆ 资源调度的灵活、高效、精细流程,在线 - 离线业务快速资源切换、一体化资源调度;
◆ 混部稳定性,达到和非混部同等量级的稳定性指标。依赖精细化地服务度量制定,以及资 源隔离与业务运行适配度提升;
◆ 混部监控体系,提高运行时监控、异常发现与诊断能力;
◆ 混部异常应急机制,针对稳定性风险提前识别场景,并制定流程化应急机制,打造异常快 速恢复能力。