附下载|SIGMOD'25:百万核异构硬件调度,云数仓如何提升Data+AI资源利用率?

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 如何在异构架构中优化GPU资源利用?

点击链接即可下载论文原文


1. 引言

日前,2025年数据库领域顶会ACM SIGMOD/PODS会议在德国柏林举行。来自阿里云瑶池数据库团队的论文Flux: Unifying Heterogeneous Infrastructure for Alibaba AnalyticDB成功入选SIGMOD Industrial Track(工业赛道)


云数据仓库负载在技术演进下日益多样化,特别是多种Data、AI负载部署于平台,催生出对异构计算资源的迫切需求。然而,传统异构计算资源存在高成本、利用率低下以及多租户资源竞争与隔离不足等问题。在满足多元化负载性能的前提下,实现异构计算资源的高效利用与显著性能提升,是一项极具挑战的任务。


论文提出的Flux系统,利用AI技术识别不同查询的潜在加速收益。基于此识别,系统采用多优先级调度机制,为具有不同加速收益的查询提供差异化的资源保障,从而在确保用户查询性能的前提下,显著降低用户与云厂商成本,查询速度最高提高4.39倍,用户成本最高降低21.9%,云厂商成本最高降低47%,GPU利用率从30%提升至70%+。


该技术已应用在CPU百万核规模的AnalyticDB调度场景中,AnalyticDB是阿里云2014年推出的自研云原生数据仓库AnalyticDB MySQL版通过AI湖仓一体架构为千万家企业级客户提供了数据处理ETL、实时在线分析、核心报表、大屏和监控、在线推理能力,服务的场景包括实时数仓、精准营销、商业智能报表、多源联合分析、交互式查询、多模态数据处理、具身智能、Agent等。

2. 论文背景

Data+AI技术的兴起推动了云数据仓库负载类型的多样化。为构建更贴近数据源的数据链路,大型语言模型 (LLM) 和机器学习 (ML) 等AI技术被部署于云数据仓库中,旨在实现从数据采集、清洗、处理到模型应用的一站式Data+AI全链路流程。这一趋势促使云服务提供商在其数据仓库集群中大规模部署GPU等异构加速计算设备,以高效支撑多样化的AI工作负载。


为提升GPU等异构加速资源的利用率,闲置GPU资源将被调度用于执行数据库查询负载。然而,云数据仓库中查询工作负载的多样性导致不同查询在异构加速器上表现出显著的性能差异。如下图所示,受查询算子与数据特征的双重影响,特定查询在FPGA/GPU上的加速效果存在明显波动,其加速比范围在2.8倍至6倍之间。因此,识别并优先加速那些能够高效利用异构加速硬件的查询负载,可显著提升整体加速效益。

image.png

然而,既有研究中的资源调度模式难以充分释放硬件加速潜力。如下图所示,主流方案主要包含三类:

  1. 单租户模式:缺失多租户隔离能力,存在显著安全隐患;
  2. 硬隔离机制:虽可保障资源独占分配,但易导致资源利用率低下;
  3. 软隔离策略:面临不可控的资源争抢风险,难以保证服务稳定性。

image.png

3. Flux的整体架构

下图所示的Flux架构说明了我们以实用有效的方式实现异构加速资源高效利用的创新方法。Flux的实现围绕两个核心设计目标:

  • 目标G1:工作负载分离。在执行之前,评估每条查询可以从异构加速资源中享受到的加速效果,按照预估的加速效果调度查询;
  • 目标G2:作业最优调度。尽可能将异构资源利用率高的作业调度到对应机器上,以提高加速效果和集群资源利用率。


这些目标是通过以下过程实现的。在每个AnalyticDB实例中,混合的异构工作负载首先由查询调度程序进行打分,并调度到合适的cluster上。在多个AnalyticDB实例下,为了提高整个集群的资源利用率和加速效果,优先将异构资源利用率高的cluster调度到异构资源上,然后调度加速效果较低的cluster用以提供资源利用率。最后,通过查询调度保障冲突时的查询性能。

image.png

4. Flux的设计和实现

4.1 查询调度器

Flux的查询调度器负载对查询进行调度,判断查询的异构资源加速适用性,并将查询调度到不同的cluster上。


我们通过一个级联AI机器学习预测器预测查询的优先级打分,以评估一个查询的异构加速收益。收益主要包括三个部分:成本收益比,加速收益比和查询时长系数,分别用于反映一个查询在异构加速资源上能获得的计算资源开销优化,执行时长优化,和重要程度(短查询具有较高的重要性)

image.png

image.png

image.png

我们通过一个基于查询历史的快速检索系统和一个回归模型,使用查询的执行计划树作为输入,预测查询能获得的加速效果,计算查询优先级,并以此为依据进行查询调度。

image.png

4.2 统一资源调度

在完成查询调度后,我们对每个cluster中的负载进行评估,用以进行统一资源调度。每个cluster用三个指标进行描述,分别为:


  • 优先级:cluster的固有属性,查询的会依据自身的加速效果调度到相匹配的cluster上。cluster会计算调度上来的查询的优先级打分的平均值,作为自身的优先级分数,作为驱逐和调度的依据。
  • 平均负载:cluster的历史属性,过去一段时间内查询的平均负载。
  • 负载波动:cluster的历史属性,过去一段时间内查询的负载波动。


进一步地,我们将一个cluster的负载描述为正态分布,用于拟合评估cluster负载。因此,一台机器的负载可以描述为机器上的cluster负载的叠加。

image.png

一台机器上的负载超出机器的资源总量,即资源冲突时,查询的性能会受损。该情况可以描述为机器负载分布大于机器资源的概率。为了同时满足尽可能高的资源利用率和尽可能低的资源冲突率,我们基于cluster的优先级,规定单机资源机会约束,如下公式所示,其中z为不同优先级的不同置信概率下的z-score。在进行资源调度时,将会依次判定是否满足不同优先级的资源约束。

image.png

cluster的资源描述每天会进行更新以反映用户负载的变化,更新后可能有机器上不再能够满足约束,因此会进行驱逐和重调度。下图算法为驱逐算法,将对每个约束进行验证,如果存在不满足的约束,会选择优先级分数最低的cluster进行驱逐。

image.png

4.3 单机资源压制

Flux使用的基于概率约束的资源调度意味着可能存在资源冲突,Flux通过三层容灾策略保障资源可靠性:绝对资源压制:一台机器上同时存在多种优先级的cluster,当出现资源冲突时,执行梯度压制策略:

  • 优先压制最低优先级cluster直至资源释放;
  • 仅当低优先级cluster全被压制后仍冲突,启动中/高优先级cluster压制。


相对资源压制:压制一种优先级的cluster时,如果存在多个cluster,则以公平原则进行压制,每个cluster以平均负载/相对优先级作为压制权重,将时间片在多个cluster中进行公平分配。


查询回退:当一个cluster的被资源压制时,为了保障该cluster仍能进行正常查询,该cluster的查询排队队列会被缩短以减少异构资源排队时间,无法进入排队队列中的查询会被溢出到该机器的CPU上进行执行。

5. 实验分析

5.1 查询RT

Flux对比不同的资源装箱算法,基于条件概率约束的装箱算法(如下图)通过优先高优先级cluster装箱,让更多的高加速效果查询享受到了异构资源加速,对比基线平均提高了20%以上的加速效果。

image.png

Flux对比不同的异构硬件虚拟化算法,通过优先装箱高优先级cluster,对比其他虚拟化算法,显著提高了高,中优先级查询加速效果(下图a,b),作为代价,基本没有加速低优先级查询。

image.png

5.2 用户成本

在单一实例上,通过将高异构资源利用查询调度到FPGA上,单一用户实现了4倍的计算速度提升和21.9%的总成本节省。

image.png

5.3 资源成本

我们统计了阿里云某个区域内1700多个AnalyticDB实例的性能开销和查询分布通过导入高加速效果的FPGA,同时高效利用闲置的GPU机器,实现了47%的总成本降低。

image.png


AnalyticDB MySQL弹性能力的使用手册

论文相关功能使用手册参考:🔗 https://help.aliyun.com/zh/analyticdb/analyticdb-for-mysql/user-guide/managed-ray-service

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
2月前
|
存储 消息中间件 人工智能
【03】AI辅助编程完整的安卓二次商业实战-本地构建运行并且调试-二次开发改注册登陆按钮颜色以及整体资源结构熟悉-优雅草伊凡
【03】AI辅助编程完整的安卓二次商业实战-本地构建运行并且调试-二次开发改注册登陆按钮颜色以及整体资源结构熟悉-优雅草伊凡
118 3
|
1月前
|
人工智能 运维 关系型数据库
云栖大会|AI时代的数据库变革升级与实践:Data+AI驱动企业智能新范式
2025云栖大会“AI时代的数据库变革”专场,阿里云瑶池联合B站、小鹏、NVIDIA等分享Data+AI融合实践,发布PolarDB湖库一体化、ApsaraDB Agent等创新成果,全面展现数据库在多模态、智能体、具身智能等场景的技术演进与落地。
|
3月前
|
SQL 人工智能 API
Apache Flink 2.1.0: 面向实时 Data + AI 全面升级,开启智能流处理新纪元
Apache Flink 2.1.0 正式发布,标志着实时数据处理引擎向统一 Data + AI 平台迈进。新版本强化了实时 AI 能力,支持通过 Flink SQL 和 Table API 创建及调用 AI 模型,新增 Model DDL、ML_PREDICT 表值函数等功能,实现端到端的实时 AI 工作流。同时增强了 Flink SQL 的流处理能力,引入 Process Table Functions(PTFs)、Variant 数据类型,优化流式 Join 及状态管理,显著提升作业稳定性与资源利用率。
439 0
|
4月前
|
人工智能 负载均衡 安全
云上AI推理平台全掌握 (3):服务接入与全球调度
阿里云人工智能平台 PAI 平台推出的全球化的服务接入矩阵,为 LLM 服务量身打造了专业且灵活的服务接入方案,正重新定义 AI 服务的高可用接入标准——从单地域 VPC 安全隔离到跨洲际毫秒级调度,让客户的推理服务在任何网络环境下都能实现「接入即最优」。
|
3月前
|
人工智能 自然语言处理 数据可视化
聊聊多维表格与BI|AI x Data 数据产品的发展趋势
多维表格与Quick BI深度融合,助力企业在AI与数据时代实现高效分析。多维表格作为轻量级数据管理工具,擅长快速填报与基础分析;而Quick BI则专注于多源数据整合、深度洞察与可视化展示。两者协同,既能降低使用门槛,又能提升数据分析的广度与深度,满足企业从数据采集到智能决策的全链路需求。未来,数据产品将朝着低门槛、多场景与实用性方向发展,推动商业智能迈向新高度。
278 25
|
2月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
332 0
“燕缘 · 滴水湖”大学生AI+国际创业大赛 ——算力资源领取说明
本次大赛为每位参赛学生提供300元阿里云算力资源,通过赛事官网链接领取。领取流程包括:点击专属页面、扫码登录阿里云、完成代金券领取,并在“我的权益-可用券”中查看领取状态。注意代金券使用期限和额度,避免超额使用产生欠费。若已领取过,可直接使用。
|
4月前
|
机器学习/深度学习 人工智能 算法
深度强化学习在异构环境中AI Agent行为泛化能力研究
随着人工智能技术的迅猛发展,AI Agent 在游戏、智能制造、自动驾驶等场景中已逐步展现出强大的自适应能力。特别是深度强化学习(Deep Reinforcement Learning, DRL)的引入,使得智能体能够通过与环境的交互,自动学习最优的行为策略。本文将系统性地探讨基于深度强化学习的AI Agent行为决策机制,并结合代码实战加以说明。
深度强化学习在异构环境中AI Agent行为泛化能力研究

热门文章

最新文章

下一篇
oss云网关配置