postgresql cluster和correlation

本文涉及的产品
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: --今天查看pg_statsinfo报告时发现有如下警告,说明字段物理行序和逻辑行序相关不大correlation of the clustered table fell below threshold in snapshot '2015-11-30 08:30:00' --- 't.


--今天查看pg_statsinfo报告时发现有如下警告,说明字段物理行序和逻辑行序相关不大
correlation of the clustered table fell below threshold in snapshot '2015-11-30 08:30:00' --- 't.order_num', 44.01 % (threshold = 70 %)


correlation的意义
correlation,统计与字段值的物理行序和逻辑行序有关,统计值范围从-1到1, 趋向于-1表示逆向相关, 趋向于1表示正向相关, 趋向于0表示不相关,
相关性越高, 走索引扫描的离散块扫描更少, 也就是说, 相关性越高, 走索引扫描的离散块扫描代价越低,
对于uuid列其相关性可能越近于0,如果相关性很低,可以考虑修改表字段值


--对于此种情景,可以使用cluster优化
cluster的好处 : 
1. 因为PostgreSQL 统计了表的物理存储顺序和每一列值的顺态值, 在执行计划选择时, 可以用到这个顺态值用作计算走索引的成本.
这个值越接近0, 说明表的物理分布上这个列的值比较离散, 走索引的成本越高; 
反之这个值越接近1或者-1, 说明表的物理分布上这个列的值比较有序, 走索引的成本越低; 
2. cluster 后, 表的物理分布就和索引一致了, 观察上面ctid的变化就可以得知. cluster完后查看pg_stats.correlation会等于1.
3. 注意cluster是一次性的, 在这个表做了dml 后, 物理分布又会被打乱.
4. 结合块设备的read ahead, cluster后, 如果执行计划走这个cluster了的索引取数据(如几百条到几万条[取数在全表来说是比较少的时候]), 可以减少大量的物理磁盘读请求.




--优化前的数据如下
postgres=# select * from pg_stats where tablename='t' and attname='order_num';
schemaname             | public
tablename              | t
attname                | order_num
n_distinct             | -0.6737
correlation            | 0.42853


--聚集化数据的存储与其索引
postgres=# cluster verbose t using order_num_index;
INFO:  clustering "public.t" using index scan on "order_num_index"
INFO:  "t": found 0 removable, 198250 nonremovable row versions in 6960 pages
DETAIL:  0 dead row versions cannot be removed yet.
CPU 0.68s/0.08u sec elapsed 3.76 sec.
CLUSTER
postgres=# vacuum analyze t ;
VACUUM
--再次查看相关性如下所示
postgres=# select * from pg_stats where tablename='t' and attname='order_num';
schemaname             | public
tablename              | t
attname                | order_num
correlation            | 1


--注意在cluster时,盘簇化是一次性操作:当表将来被更新之后,更改的内容不会被盘簇化排序
--在对一个表进行盘簇化排序的时候,会在其上请求一个 ACCESS EXCLUSIVE 锁,其它客户端即不能读也不能写
--磁盘空间会需要至少约 2 倍的表大小和索引大小


--综上对于大表或系统的热表,请慎重选择
相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍如何基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
目录
相关文章
|
存储 关系型数据库 PostgreSQL
PostgreSQL cluster table using index
PostgreSQL CLUSTER意在将表按照索引的顺序排布.  可以通过ctid来观察这个排布, 或者通过pg_stats.
1266 0
|
缓存 关系型数据库 PostgreSQL
PostgreSQL cluster大幅减少nestloop离散IO的优化方法
背景 对于较大数据量的表,如果在索引字段上面有小结果集JOIN,用nestloop JOIN是比较好的方法。 但是nestloop带来的一个问题就是离散IO,这个是无法回避的问题,特别是硬件IO能力不行的情况下,性能会比较糟糕。 有什么优化方法呢? PostgreSQL提供了一个
3662 0
|
存储 索引 关系型数据库
|
3月前
|
存储 关系型数据库 测试技术
拯救海量数据:PostgreSQL分区表性能优化实战手册(附压测对比)
本文深入解析PostgreSQL分区表的核心原理与优化策略,涵盖性能痛点、实战案例及压测对比。首先阐述分区表作为继承表+路由规则的逻辑封装,分析分区裁剪失效、全局索引膨胀和VACUUM堆积三大性能杀手,并通过电商订单表崩溃事件说明旧分区维护的重要性。接着提出四维设计法优化分区策略,包括时间范围分区黄金法则与自动化维护体系。同时对比局部索引与全局索引性能,展示后者在特定场景下的优势。进一步探讨并行查询优化、冷热数据分层存储及故障复盘,解决分区锁竞争问题。
336 2
|
关系型数据库 分布式数据库 数据库
|
关系型数据库 分布式数据库 PolarDB
《阿里云产品手册2022-2023 版》——PolarDB for PostgreSQL
《阿里云产品手册2022-2023 版》——PolarDB for PostgreSQL
495 0
|
存储 缓存 关系型数据库
|
存储 SQL 并行计算
PolarDB for PostgreSQL 开源必读手册-开源PolarDB for PostgreSQL架构介绍(中)
PolarDB for PostgreSQL 开源必读手册-开源PolarDB for PostgreSQL架构介绍
612 0
|
存储 算法 安全
PolarDB for PostgreSQL 开源必读手册-开源PolarDB for PostgreSQL架构介绍(下)
PolarDB for PostgreSQL 开源必读手册-开源PolarDB for PostgreSQL架构介绍
538 0