近日,在 VLDB 2023 上,由阿里云计算平台大数据基础工程技术团队主导,与计算平台 MaxCompute 团队、华东师范大学数据科学与工程学院、达摩院合作的论文入选 Industrial Track,该论文提出了基于预测的云计算平台资源弹性伸缩框架 MagicScaler,该框架主要包含一个基于多尺度注意力高斯过程的预测模型和一个考虑需求不确定性的弹性伸缩优化决策器。通过基于预测的资源弹性扩缩容,实现了“高QoS(Quality of Service),低成本”的双丰收。
VLDB(International Conference on Very Large Data Bases)会议是计算机科学数据库领域的顶级国际会议,专注于数据库管理系统和大规模数据管理的研究,促进了数据库技术和数据管理领域的学术交流和创新,在学术和工业界都有广泛的影响力。此次入选意味着阿里云提出的基于预测的云计算平台资源弹性伸缩框架获得了国际学者的认可。通过在 VLDB 这样的顶级国际会议上展示阿里云计算平台的创新成果,一方面体现了阿里云的技术竞争力,另一方面也创造了更多国际合作交流的可能性。
随着云计算需求的日益发展,基于用户需求合理地进行云资源分配是保障稳定性和控制成本的重要因素。而云上用户需求往往具有高度复杂性、不确定性和差异性,这给未来需求的准确预测带来了一定困难,也使得主动弹性伸缩更具挑战性。一个好的主动弹性伸缩策略需要在考虑需求不确定性的同时,保持云平台低运行成本和高 QoS 之间的合理平衡。
针对这一问题,MagicScaler 提出了一种预测器与弹性伸缩优化器相结合的主动伸缩框架,首先通过结合多尺度注意力机制和随机过程回归实现精确的需求预测,并量化预测的不确定性;之后基于预测结果,将复杂业务场景建模为马尔可夫决策过程,通过滚动时域求解近似,将量化的未来需求不确定性融入一个随机规划模型中得到推荐的弹性伸缩策略,并实现了资源成本与 QoS 之间的灵活平衡。
目前在阿里云云原生大数据计算服务 MaxCompute 3 个集群的真实数据集上进行了实验,综合成本和 QoS 两个层面,MagicScaler 要显著优于其他经典的弹性伸缩算法。后续将进一步研究如何将 MagicScaler 技术与 MaxCompute 现有调度策略结合。
● 论文标题:MagicScaler: Uncertainty-aware, Predictive Autoscaling
● 论文作者:潘志诚,王益杭,张颖莹,杨斌,程云爻,陈鹏,郭晨娟,文青松,田西夺,窦云亮,周志强,杨程程,周傲英,杨彬