《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB PostgreSQL版解析与实践(下)——三、SQL性能调优(下)

简介: 《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB PostgreSQL版解析与实践(下)——三、SQL性能调优(下)

更多精彩内容,欢迎观看:《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB PostgreSQL版解析与实践(下)——三、SQL性能调优(下):


6. 可视化执行计划

 

如图是执行计划可视化展示。

 

 示例语句

explain (format json,analyze true) select count(*) from test,testr where test.num1=testr.num2;


image.png

 

Postgres EXPLAIN Visualizer

http://tatiyants.com/pev/#/plans/new

 

7. 如何发现问题

 

自上而下,梳理痛点:自上而下梳理计划,确定时间开销大的算子。

查看代价,对比行数:查看比较代价估算的异常,对比估算行数和实际执行行数差异大的情况。

耗时算子,尽量避免:AP场景很少需要NestLoop、Sort+GroupByAgg。

具体算子,是否合理:是否有不必要的Motion算子,Join内外表顺序是否合适,Scan是否可以使用索引。

内存信息,调整参数:查看下盘情况,分析后适当调整statement_mem参数。

 

8. 通过索引提升查询性能

 

ADB PG支持如下索引类型及语句示例/适用场景:

 

B-tree:create index i1 on t1 using btree(c1),适用大多数场景,尤其对于点查询和更新等操作。

Bitmap:create index i2 on t2 using bitmap(c2),唯一值低于10w且低于总行数1/10,常与其他列有联合过滤条件。

GIN/GiST:全文检索,数组,JSON。

 

1) B-Tree索引优化建议,建议创建索引的场景

 

点查询的场景。

where条件的过滤效果较好的场景。

 

2) 不建议创建索引的场景

 

更新较多的表上不建议建索引,更新较为频繁的表上创建索引。

一个表的索引数最好不超过6个。

避免创建超过3列的组合索引。

避免创建重复的索引或具有相同前导列的索引。

 

3) 索引使用的建议

 

组合索引是从前向后匹配where条件的,不能命中前导列的where条件,不会使用该索引。

批量导入大量数据前可删除索引,导入数据后重建索引。

索引创建完成后,最好做一下统计信息收集。

 

9. 消除Redistribute Motion

 

在进行连接或聚集操作时,会根据数据分布情况添加分布式算子,对数据进行重分布Redistribute Motion或广播Broadcast Motion。分布式算子会占用大量的网络资源。如果能够通过建表和业务逻辑进行分布式算子的规避,则能够提升数据库查询性能。

 

示例假设有两张表,执行查询语句:

 

SELECT* FROM t1,t2 WHERE t1.a=t2.a;

t1表的分布键为t1.a,t2表的分布列是t2.b,会出现t2表的重分布

t1表的分布键为t1.a,t2表的分布列是t2.a,无需重分布直接Join。

image.png

 

10. 避免下盘

 

查询执行过程中,当集群内存不足时,数据库可能会选择将临时结果暂存到磁盘。由于磁盘操作相对内存访问缓慢,避免查询执行过程中的算子下盘,有助于提高查询效率。

算子下盘常见原因优化建议:调整statement mem(默认2GB)。

 

11. 锁的检测及处理

 

1) 死锁

 

死锁的检测和处理为数据库内部机制,无需手工干预,出现死锁会影响数据库吞吐量。

 

死锁检测方式:

 Local Deadlock Detector:用于检测单个计算节点内发生的死锁。

 Global Deadlock Detector:用于检测跨计算节点发生的分布式死锁。

 

示例

 

Session1

BEGIN;UPDATE t SET j=33 WHERE pk=3;UPDATE t SET j=33 WHERE pk=7;END;

  

Session2

BEGIN;UPDATE t SET j = 33 WHERE pk=7;UPDATE t SET j = 33 WHERE pk=3;END;

 

 当pk=3,pk=7落在单个计算节点上时,Local Deadlock Detector能检测到死锁;

当pk=3,pk=7落在不同计算节点上时,Global Deadlock Detector能检测到这种分布式死锁。

 

2) 常规锁

 

查看所有当前被加锁的对象,以及相应加锁的SQL

 

执行语句

select * from gp_toolkit.gp_locks_on_relation where lorrelname ='<table>';

  

12. 空间回收

 

为什么会空间膨胀

 

表中的数据被删除或更新后UPDATE/DELTE,物理存储层面并不会直接删除数据,而是标记这些数据不可见,所以会在数据页中留下很多“空洞”,在读取数据时,这些“空洞”会随数据页一起加载,拖慢数据扫描速度,需要定期回收删除的空间。

 

膨胀率判断方法

 

通过gp_toolkit.gp_bloat_diag视图,bdirelpages表示表实际占用Page数,bdiexppages表示表实际需要Page数,bdirelpages/bdiexppages > 4时,即可考虑进行空间回收。

 

回收操作可以通过vacuum和vacuum full

 

ü vacuum:回收时不锁表,但只标记删除空间可被再利用,不释放物理空间。

ü vacuum full:回收时锁表,表无法读写,回收物理空间,建议在维护窗口进行。

 

维护定期回收空间任务

https://help.aliyun.com/document_detail/59176.html

 

13. 避免数据倾斜

 

image.png 

 

1) 表现形式

 

数据存储倾斜,表现形式为数据在多个Segment节点上分布不均匀,存在如下影响:

 

磁盘存储水位不均匀,个别Segment节点磁盘使用过多,提前用满磁盘存储空间。

节点参与计算数据量不均匀,存在木桶效应。

 

2) 数据倾斜排查

 

用户控制台排查:

 

控制台基础信息项,会展示实例最大存储水位与实例存储总水位,存储数据倾斜时,两个数值将会差异过大。

 控制台监控与报警项,计算节点监控处会展示所有计算节点的空间使用量,存储数据倾斜时,节点磁盘空间使用量会差异过大。

 

通过SQL排查:

 

 通过控制台信息确定存在存储倾斜后,使用SQL排查倾斜的表。

 查询结果根据数据倾斜程度排序,当tb_balance_rate大于1.1时,认为该表存在数据倾斜。

 

排查同一张表在各个Segment节点下的存储数据量,执行如下语句:

select gp_segment_id, pg_size_pretty(pg_total_relation sizeltable name))from gp_dist_random('gp_id');

  

排查同一张表在各个Segment节点下的行数,执行如下语句:

select gp_segment_id,count(1) from table name group by gp segment id;

  

3) 避免数据倾斜

 

建表过程指定分布键或分布规律:

CREATE TABLE table_name (......) [DISTRIBUTED BY(column name,[...]) |DISTRIBUTED RANDOMLY |DISTRIBUTED REPLICATED];

  

修改分布键或分布规律:

ALTER TABLE [IF EXISTS] [ONLY] name SET WITH (REORGANIZE=true/false)| DISTRIBUTED BY (column_name,[...])|DISTRIBUTED RANDOMLY|DISTRIBUTED REPLICATED;

  

注意

修改分布键或分布规律,大多数情况都将会进行数据迁移,对于数据量过大的表,该操作会相对较久并且会锁表,无法查询

REORGANIZE=false仅在修改前后一致、或修改为随机分布时才会不进行数据重分布。

 

分布策略选择规则:

 

 小表(总行数低于1万)优先选择复制表分布策略(DISTRIBUTED REPLACATED)。

 大表优先选择参与Join/GroupBy计算的字段作为分布键Hash分布。

 若没有数据分布均匀的字段作为分布键使用,采用随机分布策略(DISTRIBUTED RANDOMLY)。

 

相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
存储 缓存 算法
HashMap深度解析:从原理到实战
HashMap,作为Java集合框架中的一个核心组件,以其高效的键值对存储和检索机制,在软件开发中扮演着举足轻重的角色。作为一名资深的AI工程师,深入理解HashMap的原理、历史、业务场景以及实战应用,对于提升数据处理和算法实现的效率至关重要。本文将通过手绘结构图、流程图,结合Java代码示例,全方位解析HashMap,帮助读者从理论到实践全面掌握这一关键技术。
428 14
|
11月前
|
人工智能 API 开发者
HarmonyOS Next~鸿蒙应用框架开发实战:Ability Kit与Accessibility Kit深度解析
本书深入解析HarmonyOS应用框架开发,聚焦Ability Kit与Accessibility Kit两大核心组件。Ability Kit通过FA/PA双引擎架构实现跨设备协同,支持分布式能力开发;Accessibility Kit提供无障碍服务构建方案,优化用户体验。内容涵盖设计理念、实践案例、调试优化及未来演进方向,助力开发者打造高效、包容的分布式应用,体现HarmonyOS生态价值。
685 27
|
11月前
|
人工智能 API 语音技术
HarmonyOS Next~鸿蒙AI功能开发:Core Speech Kit与Core Vision Kit的技术解析与实践
本文深入解析鸿蒙操作系统(HarmonyOS)中的Core Speech Kit与Core Vision Kit,探讨其在AI功能开发中的核心能力与实践方法。Core Speech Kit聚焦语音交互,提供语音识别、合成等功能,支持多场景应用;Core Vision Kit专注视觉处理,涵盖人脸检测、OCR等技术。文章还分析了两者的协同应用及生态发展趋势,展望未来AI技术与鸿蒙系统结合带来的智能交互新阶段。
786 31
|
11月前
|
数据采集 JSON 数据可视化
JSON数据解析实战:从嵌套结构到结构化表格
在信息爆炸的时代,从杂乱数据中提取精准知识图谱是数据侦探的挑战。本文以Google Scholar为例,解析嵌套JSON数据,提取文献信息并转换为结构化表格,通过Graphviz制作技术关系图谱,揭示文献间的隐秘联系。代码涵盖代理IP、请求头设置、JSON解析及可视化,提供完整实战案例。
682 4
JSON数据解析实战:从嵌套结构到结构化表格
|
11月前
|
数据采集 机器学习/深度学习 存储
可穿戴设备如何重塑医疗健康:技术解析与应用实战
可穿戴设备如何重塑医疗健康:技术解析与应用实战
425 4
|
11月前
|
机器学习/深度学习 人工智能 Java
Java机器学习实战:基于DJL框架的手写数字识别全解析
在人工智能蓬勃发展的今天,Python凭借丰富的生态库(如TensorFlow、PyTorch)成为AI开发的首选语言。但Java作为企业级应用的基石,其在生产环境部署、性能优化和工程化方面的优势不容忽视。DJL(Deep Java Library)的出现完美填补了Java在深度学习领域的空白,它提供了一套统一的API,允许开发者无缝对接主流深度学习框架,将AI模型高效部署到Java生态中。本文将通过手写数字识别的完整流程,深入解析DJL框架的核心机制与应用实践。
692 3
|
11月前
|
缓存 边缘计算 安全
阿里云CDN:全球加速网络的实践创新与价值解析
在数字化浪潮下,用户体验成为企业竞争力的核心。阿里云CDN凭借技术创新与全球化布局,提供高效稳定的加速解决方案。其三层优化体系(智能调度、缓存策略、安全防护)确保低延迟和高命中率,覆盖2800+全球节点,支持电商、教育、游戏等行业,帮助企业节省带宽成本,提升加载速度和安全性。未来,阿里云CDN将继续引领内容分发的行业标准。
611 7
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
DeepSeek 实践应用解析:合力亿捷智能客服迈向 “真智能” 时代
DeepSeek作为人工智能领域的创新翘楚,凭借领先的技术实力,在智能客服领域掀起变革。通过全渠道智能辅助、精准对话管理、多语言交互、智能工单处理、个性化推荐、情绪分析及反馈监控等功能,大幅提升客户服务效率和质量,助力企业实现卓越升级,推动智能化服务发展。
445 1
|
11月前
|
机器学习/深度学习 人工智能 监控
鸿蒙赋能智慧物流:AI类目标签技术深度解析与实践
在数字化浪潮下,物流行业面临变革,传统模式的局限性凸显。AI技术为物流转型升级注入动力。本文聚焦HarmonyOS NEXT API 12及以上版本,探讨如何利用AI类目标签技术提升智慧物流效率、准确性和成本控制。通过高效数据处理、实时监控和动态调整,AI技术显著优于传统方式。鸿蒙系统的分布式软总线技术和隐私保护机制为智慧物流提供了坚实基础。从仓储管理到运输监控再到配送优化,AI类目标签技术助力物流全流程智能化,提高客户满意度并降低成本。开发者可借助深度学习框架和鸿蒙系统特性,开发创新应用,推动物流行业智能化升级。
371 1
|
12月前
|
SQL 关系型数据库 OLAP
云原生数据仓库AnalyticDB PostgreSQL同一个SQL可以实现向量索引、全文索引GIN、普通索引BTREE混合查询,简化业务实现逻辑、提升查询性能
本文档介绍了如何在AnalyticDB for PostgreSQL中创建表、向量索引及混合检索的实现步骤。主要内容包括:创建`articles`表并设置向量存储格式,创建ANN向量索引,为表增加`username`和`time`列,建立BTREE索引和GIN全文检索索引,并展示了查询结果。参考文档提供了详细的SQL语句和配置说明。
437 2

推荐镜像

更多