[VLDB 2025]面向云计算平台的多模态慢查询根因排序

简介: 阿里云联合团队提出RCRank,用于云数据库慢查询根因分析。该方法通过多模态数据融合与神经网络模型,实现根因影响估计与排序,提升优化效率14%,被VLDB 2025接收。

一.开篇


近日,由阿里云计算平台大数据基础工程技术团队主导,华东师范大学数据科学与工程学院、丹麦奥尔堡大学合作的论文《RCRank: Multimodal Ranking of Root Causes of Slow Queries in Cloud Database Systems》被数据库领域顶会 VLDB 2025接收。论文从更加全面的慢 SQL 可观测的数据视角分析 Hologres 中慢 SQL 的根因,实现了基于神经网络的慢 SQL 根因影响估计和排序,通过与 SOTA 根因分析算法相比平均提升慢查询优化效率14%

二.背景


企业和个人正越来越多地将其数据库服务迁移到云端。然而,云数据库系统的性能问题,特别是慢查询,会给用户带来经济损失,并降低用户对云端数据管理的信任。因此,加速慢查询对于确保高性能的云数据库系统至关重要。慢查询可能源于数据库系统的内部因素,如缺少相关索引或 SQL 语句书写不当,也可能受到外部因素的影响,如 I/O 瓶颈和网络问题。本文的目标是提供一个框架帮助用户解决慢查询优化问题,重点关注由内部因素引起的根因。识别根因,即识别导致慢查询的关键因素,然后根据根因的重要程度,通过相应的优化方法提升数据库性能。

三.挑战


尽管已有方法针对慢查询的识别,但仍然存在两个主要限制:

限制一:侧重于根因类型识别。现有方法主要关注识别慢查询的根因类型。然而,这并不能完全满足优先处理最重要根因的需求。基于根因优化慢查询的成本较高,如果针对每个根因都进行修正,可能会带来巨大的开销。因此,在选择要处理的根因时,考虑其影响程度(即解决该根因后可节省多少运行时间)是十分重要的。然而,根因识别(RCI)方法无法量化解决已识别根因的潜在影响,从而限制了其实用性。


限制二:云数据库系统的观测不完整性。大多数现有方法依赖于单一模态的信息,例如 CPU 或内存使用时间等关键性能指标来识别根因,而忽略了其他能够提供慢查询内部因素见解的数据来源。例如,查询语句和执行计划包含关于查询目标和估计执行过程的信息,而执行日志记录了查询执行过程中消耗的资源及其执行状态。若要实现全面观测,需要综合考虑这些数据来源,以此构建更扎实的基础,从而更准确地理解慢查询及其根因,并提升根因识别的准确性。

四.破局


640 (8).png

本文提出了一种多模态诊断框架,用于识别慢查询的根因并根据其影响力进行排序。具体来说包含以下几个关键方面:慢查询与根因收集模块包括云数据库系统监控、慢查询收集和根因收集。该模块收集慢查询及其对应根因的影响程度,为第二个模块提供数据基础。多模态根因诊断模块通过预训练表征和多模态融合学习观测完整的多模态数据表征,根据多模态表征估计根因影响程度,从而构建基于慢查询根因影响程度的排序列表。


1)慢查询根因收集:慢查询收集通过云数据库监控系统对查询和数据库实例进行持续监控,并收集超过慢查询阈值的查询。接下来,通过基于规则的方法和基于大语言模型(LLM)的方法分析慢查询的根因。根据两类分析方法提供的优化方案进行修正,并重新执行得到修正后的执行时间。通过 (原始执行时间-修正后执行时间) / 原始执行时间,计算出根因的影响程度,从而构建了一个用于识别和排序慢查询根因的数据集。


640 (9).png


2)多模态根因诊断:多模态根因诊断模型将不同模态的查询语句、执行计划、执行日志、关键性能指标输入模型。原始数据首先经过输入嵌入模块分别进行编码,转换为特征表征。随后,多模态融合模块通过交叉特征提取器融合多模态特征表征,并提取根因的共性特征和自适应性特征。最后,结合根因的共性特征和自适应性特征进行根因影响程度估计和排序,得到慢查询根因影响程度的排序列表。

五.应用


后续将进一步研究如何将 RCRank 技术与 Hologres 现有实例诊断能力结合。

/ END /

相关文章
|
6月前
|
人工智能 前端开发 JavaScript
释放Qwen3-Coder潜力:Bolt+AnalyticDB Supabase,打造真正的生产力工具
阿里云发布Qwen3-Coder,具备卓越自主编码能力,支持超长上下文窗口与工具调用,结合Bolt与AnalyticDB Supabase,实现高效开发。
397 2
|
8月前
|
存储 运维 监控
云服务运行安全创新标杆:阿里云飞天洛神云网络子系统“齐天”再次斩获奖项
阿里云“超大规模云计算网络一体化运行管理平台——齐天系统”凭借卓越的技术创新与实践成果,荣获“云服务运行安全创新成果奖”,同时,齐天团队负责人吕彪获评“全栈型”专家认证。
|
4月前
|
人工智能 Kubernetes 调度
ModelDistribution:高效的大模型管理、分发和预热方案
阿里云ACK One舰队推出ModelDistribution方案,创新性采用OCI标准封装模型,实现跨地域高效分发与预热,解决大模型部署中的管理复杂、拉取慢、多集群同步难等痛点,助力企业平滑演进至多地域AI推理架构。
325 1
ModelDistribution:高效的大模型管理、分发和预热方案
|
4月前
|
存储 Cloud Native 关系型数据库
PolarDB-PG IMCI实战解析:深度融合DuckDB,复杂查询性能最高百倍级提升
阿里云PolarDB PostgreSQL版创新融合DuckDB向量化引擎,推出IMCI列存索引,实现HTAP一体化。支持实时交易与复杂分析并行,查询性能提升60-100倍,兼容PG生态,秒级数据同步,助力企业高效挖掘数据价值。
496 0
|
4月前
|
人工智能 前端开发 API
一人挑战一支研发团队,3步搞定全栈开发
本文是 Qwen3-Coder 挑战赛教程第四期,我将带你完整走通一个真实项目案例:从零搭建一个“AI 舞蹈生成器”网站——上传一张人物照片,点击“立即生成”,即可获得一段该人物跳舞的动态视频。 整个过程仅需三步,无需前端、后端或模型部署经验,真正实现“说话即开发”。
406 0
|
6月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
1172 2
|
7月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
529 1
|
6月前
|
SQL 分布式计算 运维
【跨国数仓迁移最佳实践3】资源消耗减少50%!解析跨国数仓迁移至MaxCompute背后的性能优化技术
本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第3篇,解析跨国数仓迁移背后的性能优化技术。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。
325 0
|
6月前
|
自然语言处理 DataWorks 算法
数据开发再提速!DataWorks正式接入Qwen3-Coder
阿里云DataWorks平台正式接入Qwen3-Coder模型,用户通过Copilot智能助手可实现自然语言交互生成代码,提升数据开发效率。支持SQL/Python代码生成、优化及Notebook文件创建,适用于数据分析与算法构建,助力企业高效开发。
588 0
|
6月前
|
云安全 人工智能 安全
Ollama漏洞引发的“血案”—自建LLM的安全思考
「云安全技术观察」聚焦云计算时代安全技术前沿与实践,涵盖AI大模型风险、云原生安全体系建设及攻防对抗等内容,提供落地技术参考与前瞻性洞察。
719 0