又一创新!阿里云 Serverless 调度论文被云计算顶会 ACM SoCC 收录

简介: 近日,阿里云函数计算产品团队撰写的关于 Serverless 调度的创新性论文被 ACM SoCC 国际会议长文录用。

作者:木吴


关注阿里云云原生公众号,后台回复关键词【FC】查看论文原文!


近日,阿里云函数计算产品团队撰写的关于 Serverless 调度的创新性论文被 ACM SoCC 国际会议长文录用。


1.png


去年阿里云函数计算团队首个提出在 FaaS 场景下的去中心化快速镜像分发技术,团队所作论文被计算机系统领域的顶级会议 USENIX ATC’21 录用,入选中国计算机协会(CCF)推荐 A 类国际会议列表(👉详情点击阅读);今年阿里云函数计算不断突破:发布基于函数画像的调度算法论文并被国际云计算的首要会议 ACM SoCC 录用,真正做到能够保证提升函数资源利用率的同时,达到性能高稳定性。


ACM Symposium on Cloud Computing(以下简称 SoCC)是由美国计算机协会主办、聚焦云计算技术的一项学术会议,是云计算的首要会议。它汇集了对云计算感兴趣的研究人员、开发人员、用户和实践者,是唯一由 SIGMOD(数据管理特别兴趣组)和 SIGOPS(操作系统特别兴趣组)联合主办的会议, 这个会议在近些年蓬勃发展,旨在聚集数据库和计算机系统两大领域的学者,共同推进云计算技术在工业界的研究与发展。


此次被录用的论文为《Owl: Performance-Aware Scheduling for Resource-Efficient Function-as-a-Service Cloud》。


论文灵感诞生于阿里云 Serverless 产品函数计算,函数计算是阿里云的函数即服务(Function-As-A-Service)产品。阿里云函数计算是事件驱动的全托管计算服务。通过函数计算,您无需管理服务器等基础设施,只需编写代码并上传。函数计算会为您准备好计算资源,以弹性、可靠的方式运行您的代码,并提供日志查询、性能监控、报警等功能。现阶段已经覆盖了事件驱动、音视频处理、游戏、物联网、新零售、AI 等实际业务场景,并服务于阿里云、高德、支付宝、淘宝、CBU 等多个业务或项目中。


2.png


上图是一个经典的 FaaS 调度系统的架构,调度器负载将不同的函数实例调度到集群中的节点上运行。由于 FaaS 产品函数数量多、函数粒度小、执行时间短的特点,节点的资源利用率较低。简单地将更多的实例调度到同一个节点上虽然能够一定程度地提升资源利用率,但是也带来了资源争抢和性能下降。


论文针对这个问题创新地提出了基于函数画像的调度算法,在提高资源利用率的同时达到了较好的性能稳定性


1. 对于高频调用的函数,调度器会识别不同函数实例在同一个节点共置时的性能表现,以此指导函数实例的调度;


2. 对于低频调用的函数,调度器会统计其执行过程中的实际资源消耗,以此来指导函数实例的调度,同时调度器会监控函数的执行延时,当出现延时上升时通过隔离的手段进行缓解;


3. 调度器还针对闲置的实例进行迁移,将它们从利用率低的节点迁移到利用率高的节点以释放闲置节点。


3.png


为了评估算法的效果,论文根据生产环境典型的函数负载,抽象了 10 个函数,它们覆盖了不同的编程语言、资源消耗、执行时长、外部依赖。列表如下:


4.png


实验结果表明,在 100 个节点规模下,OWL 调度算法能够节省 43.8% 的资源,同时函数执行延时没有明显的增加


5.png


调度延时也没有明显增加


6.png


目前 OWL 的函数画像能力也已经应用在函数计算线上环境,并取得了不错的效果。此次论文入选 ACM SoCC,是阿里云在 Serverless 调度领域的又一次创新。


附论文信息


All On Serverless


《Owl: Performance-Aware Scheduling for Resource-Efficient Function-as-a-Service Cloud》


作者:田黄石,李苏毅,王骜,王威,吴天龙,杨皓然


论文概述:在云计算中,FaaS 是一种非常流行的产品形态,主流的云产商都提供了对应的平台。作为平台构建者我们观察到大部分的函数实例的 CPU 和内存利用率都不高,造成集群节点的利用率也不高。一个简单的做法是在节点上超额放置更多的函数实例,但是这可能会带来资源争抢和性能下降。另外,函数的外部依赖也可能导致函数的性能下降。

在本文中,我们设计了 OWL 调度系统来解决这些问题,达到高资源利用率和性能稳定性。对于低频调用的函数,调度器会统计其执行过程中的实际资源消耗,以此来指导函数实例的调度,同时调度器会监控函数的执行延时,当出现延时上升时通过隔离的手段进行缓解;对于高频调用的函数,调度器会识别不同函数实例在同一个节点共置时的性能表现,以此指导函数实例的调度。同时调度器还针对闲置的实例进行迁移,将它们从利用率低的节点迁移到利用率高的节点以释放闲置节点。我们实现了 OWL 原型系统并根据生产环境的负载构造了一组测试集。实验结果表明,OWL 调度系统能够减少 43.8% 的资源消耗并有效缓解性能下降。


点击此处,直达阿里云函数计算 FC!


相关实践学习
函数计算部署PuLID for FLUX人像写真实现智能换颜效果
只需一张图片,生成程序员专属写真!本次实验在函数计算中内置PuLID for FLUX,您可以通过函数计算+Serverless应用中心一键部署Flux模型,快速体验超写实图像生成的魅力。
从 0 入门函数计算
在函数计算的架构中,开发者只需要编写业务代码,并监控业务运行情况就可以了。这将开发者从繁重的运维工作中解放出来,将精力投入到更有意义的开发任务上。
相关文章
|
存储 边缘计算 人工智能
云计算与分布式系统架构:驱动数字化时代的创新引擎
本文将探讨云计算与分布式系统架构在数字化时代中的重要性,介绍其基本概念和原理,并探讨其在推动技术创新、提升企业效率和满足用户需求方面的作用。同时,还将提出未来发展的趋势和挑战,为读者提供对云计算与分布式系统架构的深入理解。
|
11月前
|
人工智能 Serverless 调度
突破地域限制,实现算力无限供给 —阿里云ACK One注册集群开启多地域Serverless算力调度
本文介绍了阿里云ACK One注册集群多地域Serverless算力调度解决方案,解决传统数据中心在AI时代面临的算力不足问题。方案通过分钟级接入、100%兼容Kubernetes操作及云上Serverless弹性,实现跨地域弹性算力供给,支持高并发请求与模型快速迭代。文中详细描述了快速接入步骤、指定地域调度及动态调度方法,并提供了相关代码示例。该方案助力企业实现AI推理服务的规模化部署,提升商业落地效率。
|
11月前
|
人工智能 Serverless 调度
突破地域限制,实现算力无限供给 -- 阿里云ACK One注册集群开启多地域Serverless算力调度
传统单地域算力难以支撑AI推理场景的高并发实时响应、突发高流量的要求,阿里云容器服务ACK One注册集群推出多地域Serverless算力调度方案完美解决此问题。
|
边缘计算 安全 量子技术
《云计算的未来:驱动企业创新的关键技术》
本文探讨了云计算如何成为当代企业创新和竞争力提升的核心驱动力。在介绍云计算的基本概念和发展历程的基础上,文章重点分析了云计算在企业中的具体应用,如资源弹性管理、成本优化以及促进远程工作的流行。通过探索云计算在不同行业中的应用实例,我们不仅能更好地理解这一技术的实际影响,还能洞察未来技术发展的潜在趋势。此外,文章还讨论了云计算面临的安全挑战和解决策略,为企业如何高效、安全地利用云计算提供策略建议。
411 32
|
存储 弹性计算 运维
阿里云Elasticsearch Serverless助力医疗科技企业实现业务提效和加速创新
通过采用阿里云Elasticsearch Serverless服务,某医疗科技企业解决了大规模智能床垫数据存储和分析的挑战。Serverless架构帮助客户降低50%以上的成本,实现资源弹性伸缩,免去运维负担,提高业务弹性和稳定性,企业能更专注于产品创新和用户体验优化。
909 1
|
运维 Kubernetes API
探索OpenNetEasyCloud:一款创新的云计算解决方案
OpenNetEasyCloud是一个基于微服务的开源云计算平台,利用Kubernetes和Docker实现容器编排和应用部署,提供RESTful API进行集成与自定义。采用Vue.js和Element UI打造用户友好的界面,支持虚拟机管理、存储服务、网络服务和监控告警功能。其特点是开源、易用、高可扩展、安全,并拥有活跃的社区支持。适合企业和开发者构建私有云环境,提升运维效率。[阅读原文](https://blog.csdn.net/gitblog_00041/article/details/137366836)
227 1
|
SQL 弹性计算 运维
云上创新丨1998—2024,Serverless如何让畅捷通“大象也能跳舞”
无论是研发效率还是运营效率,所有的技术架构最根本的特点,就是降本和提效,Serverless的弹性和无需运维,两者结合能够给客户带来朴素的技术和业务价值。
云上创新丨1998—2024,Serverless如何让畅捷通“大象也能跳舞”
|
存储 人工智能 物联网
云计算与分布式系统架构:未来技术驱动的创新之路
在当今数字化时代,云计算和分布式系统架构成为了企业和个人实现高效、可靠和灵活计算的关键。本文将探讨云计算与分布式系统架构的基本概念和原理,并介绍其在现代技术领域中的应用和未来发展趋势。
489 1
|
资源调度 分布式计算 大数据
【云计算与大数据技术】资源管理、调度模型策略的讲解
【云计算与大数据技术】资源管理、调度模型策略的讲解
1230 0
|
人工智能 大数据 持续交付
大数据时代的软件开发实践:利用云计算和AI赋能创新
大数据时代的软件开发实践:利用云计算和AI赋能创新
677 0

相关产品

  • 函数计算