《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(下)——三、SQL优化与慢查询解决(上)

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
简介: 《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(下)——三、SQL优化与慢查询解决(上)

1. 查询流程和执行计划

 

SQL语言完成用户和系统内部存储数据之间的交互。在执行阶段,AnalyticDB MySQL版中的查询,会首先被切分为多个Stage来执行,一个Stage就是执行计划中某一部分的物理实体。


image.png

 

在AnalyticDB MySQL架构中有三层:接入层、计算层、存储层,是计算存储分离架构。一条SQL语句执行过程,首先会进入接入层,经过解析器完成语句的解析生成执行计划,优化器对执行计划进行优化,形成逻辑执行计划。

 

分组聚合查询的处理流程,Controller节点会把查询的逻辑执行计划Plan分片下发到执行计划任务的各个节点上。

 

Stage2由4个Task组成,并行执行数据的扫描、过滤以及局部聚合等操作。

Stage1由2个Task执行,并行执行最终的聚合操作。

Stage0由1个Task执行,负责汇总Stage1的2个Task生成的最终聚合结果。

 

2. 算子

 

一个算子负责完成一个基本的数据处理逻辑,一组算子按照执行计划完成数据的一组处理规则,参数名称与功能如下:

 

Aggregation:通过sum()、count()、avg()等函数对数据进行聚合或分组聚合操作。

DistinctLimit:对应SQL语句中的DISTINCT LIMIT操作。

Filter:使用存储层数据的索引进行过滤。存储层数据没有索引,需要在计算层使用Filter算子进行过滤。

Join:对应SQL语句中的Join操作。

Project:对应SQL语句中对特定字段的投影操作,例如case when then控制流、concat()函数等。

StageOutput:用于将当前Stage处理后的数据通过网络传输到下游Stage的节点。

Sort:应SQL语句中ORDER BY子句的操作,执行ORDER BY字段的排序。

TableScan:用于从数据源读取数据,如果需要过滤数据,那么数据过滤由底层数据源使用索引高效完成。

TopN:对应SQL语句中的ORDER BY LIMIT m,n查询。

 

 

3. 影响查询性能的因素

 

影响查询性能的因素有:集群规格、节点数量、数据分布特征、数据量大小、查询并发度、查询复杂度。

 

1) 集群规格

 

不同集群规格的CPU核数、内存大小和数据存储介质等属性不同,处理子任务的能力也就不同,需要结合业务查询特征来选择集群规格

以Join或分组聚合为主的业务查询会消耗较多的CPU和内存资源

扫描数据和简单分组聚合操作的查询会消耗较多的磁盘I/O资源。

 

2) 节点数量

 

AnalyticDB MySQL版使用了分布式数据处理架构,一条查询会被分解成多个Stage在不同的节点上并行执行。所以如果集群中的节点数量越多,AnalyticDB MySQL版处理查询的能力也会越强。用户可以根据实际的业务需求来决定集群节点的购买数量,更多详情,请参见创建集群。

https://help.aliyun.com/document_detail/122234.html

 

3) 数据分布特征

 

由于使用了分布式数据处理架构,具备将一条查询分解到多个节点上并行执行的能力

充分利用多节点来并行处理查询,还取决于数据在存储节点上的分布特征

如果数据能够均匀分布在存储节点上,多个子任务在处理数据时,就能几乎同时结束任务

数据分布不均匀,子任务在处理数据时会存在时间上的长尾,从而影响最终的查询效果。

 

4) 数据量大小

 

在处理查询时,通常不会将处理过程中的临时结果暂时写到磁盘里,而是尽量在内存中将所有数据处理掉。

如果查询需要处理的数据量较大,就可能会长时间占用大量的资源,导致整体查询效率降低,进而影响最终的查询效果。

表存储的数据量较大,在执行索引过滤、明细数据读取等操作时会出现争抢磁盘I/O资源,导致查询变慢。

 

5) 查询并发度

 

能同时处理的查询数量也会存在上限。如果查询的并发度过高,集群节点资源已到达瓶颈,那么后台的查询就会出现较长时间的排队,影响整体查询效果。

 

6) 查询复杂度

 

查询的复杂度不同造成的压力也不同

如果查询中过滤条件过于复杂,会在数据过滤时对存储节点造成一定压力

如果查询中Join算子过多,数据可能需要在不同节点间进行多次的网络传输,造成网络阻塞

如果查询中分组字段过多,也会占用较多的内存资源。

 

 

更多精彩内容,欢迎观看:

《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(下)——三、SQL优化与慢查询解决(下)https://developer.aliyun.com/article/1222968?groupCode=certification

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
12天前
|
SQL 关系型数据库 MySQL
Go语言项目高效对接SQL数据库:实践技巧与方法
在Go语言项目中,与SQL数据库进行对接是一项基础且重要的任务
28 11
|
6天前
|
运维 Cloud Native 数据可视化
阿里云云原生应用组装平台BizWorks满分通过最新评估
阿里云BizWorks满分通过《基于云计算的业务组装平台能力成熟度模型》评测,获得优秀级(最高等级),广东移动联合阿里云BizWorks团队开展的组装式应用实践获得第三届“鼎新杯”数字化转型应用优秀案例一等奖。
|
11天前
|
SQL 存储 关系型数据库
添加数据到数据库的SQL语句详解与实践技巧
在数据库管理中,添加数据是一个基本操作,它涉及到向表中插入新的记录
|
10天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 云原生 API 网关 2024 年 09 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
|
15天前
|
SQL 关系型数据库 数据库
SQL数据库:核心原理与应用实践
随着信息技术的飞速发展,数据库管理系统已成为各类组织和企业中不可或缺的核心组件。在众多数据库管理系统中,SQL(结构化查询语言)数据库以其强大的数据管理能力和灵活性,广泛应用于各类业务场景。本文将深入探讨SQL数据库的基本原理、核心特性以及实际应用。一、SQL数据库概述SQL数据库是一种关系型数据库
20 5
|
16天前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
14天前
|
SQL 开发框架 .NET
ASP连接SQL数据库:从基础到实践
随着互联网技术的快速发展,数据库与应用程序之间的连接成为了软件开发中的一项关键技术。ASP(ActiveServerPages)是一种在服务器端执行的脚本环境,它能够生成动态的网页内容。而SQL数据库则是一种关系型数据库管理系统,广泛应用于各类网站和应用程序的数据存储和管理。本文将详细介绍如何使用A
30 3
|
1月前
|
供应链 安全 Cloud Native
阿里云容器服务助力企业构建云原生软件供应链安全
针对软件供应链的攻击事件在以每年三位数的速度激增,其中三方或开源软件已经成为攻击者关注的重要目标,其攻击方式和技术也在不断演进。通过供应链的传播,一个底层软件包的漏洞的影响范围可以波及世界。企业亟需更加标准和完善的供应链风险洞察和防护机制。本文将结合最佳实践的形式,面向容器应用完整的生命周期展示如何基于容器服务ACK/ACR/ASM助力企业构建云原生软件供应链安全。
|
1月前
|
人工智能 Kubernetes Cloud Native
阿里云容器服务,智算时代云原生操作系统
今年是Kubernetes十周年,在这10年间。我们已经看到其成长为云原生操作系统,向下高效调度多种算力资源,屏蔽基础设施差异,向上提供统一编程接口,支持多样化工作负载。阿里云容器服务产品已经覆盖了从公共云、边缘云、到本地数据中心的各个场景。让所有需要云能力的地方,都有统一的容器基础设施。
阿里云容器服务,智算时代云原生操作系统
|
13天前
|
SQL 消息中间件 分布式计算
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
43 0

热门文章

最新文章

推荐镜像

更多