关于PostgreSQL的GiST索引之五

本文涉及的产品
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: 4.其它数据类型的GiST索引 GiST索引可适用于多维数据类型和集合数据类型,对多维数据类型使用Rtree的索引算法,对集合数据类型RD-tree或者签名文件(是不是也可以叫利用签名向量压缩的RD-tree)的索引算法。

4.其它数据类型的GiST索引

GiST索引可适用于多维数据类型和集合数据类型,对多维数据类型使用Rtree的索引算法,对集合数据类型RD-tree或者签名文件(是不是也可以叫利用签名向量压缩的 RD-tree)的索引算法。签名文件的索引算法由于采用有损压缩的方式保存key集合,所以搞不好会遇到性能陷阱。前面已经详细介绍了tsvector和hstore的GiST索引,它们都采用了签名文件的索引算法,只不过签名向量的大小,叶节点的索引项是否用签名向量压缩等细节不一样。下面再简单介绍其他几种GiST索引采用签名文件索引算法的数据类型。

4.1 intarray

PostgreSQL为数组提供了默认的 GIN索引操作符。如果想对int数组尝试GiST索引,可以使用 intarray扩展模块带来的两个GiST索引操作符类

gist__int_ops 操作符类
采用RD-tree的索引算法,索引项中放int型key的集合。
1)对叶节点的索引项,如果key的数目超过199,报错。
2)对非叶节点的索引项,如果key的数目超过199,进行无损压缩。
  压缩方法为依次存放key和该key出现的次数。因此这种方法对重复key比较少的场合,不但不能起到压缩的作用,反而更膨胀了。

相关代码
contrib/intarray/_int_gist.c

gist__intbig_ops 操作符类
使用签名向量的形式有损压缩索引项,和hstore的GiST索引类似。
1)所有索引项包含的key的集合都采用签名向量压缩
2)签名向量的大小为2016bit

相关代码
contrib/intarray/_intbig_gist.c

4.2 pg_trgm

pg_trgm模块提供的gist_trgm_ops操作符类可以把text数据切成若干 三元词,并使用签名向量的形式压缩存储这些 三元词,索引算法和tsvetor的GiST索引类似。
gist_trgm_ops 操作符类
1)叶节点的索引项存储pg_trgm三元词的数组
  pg_trgm生成三元词时,内部用了3个字节存储 三元词,如果三元词中包含多字节字符,通过先计算CRC再取前3个字节的方法压缩。
2)非叶节点的索引项存储其包含的所有三元词集合的签名向量
3)签名向量的大小为96bit

由于pg_trgm的GiST索引的签名向量比较小,每次查询需要扫描的索引节点数必然很多,会很影响速度。
具体的测试实例可参考下面这篇文章。
http://blog.chinaunix.net/uid-20726500-id-4824895.html

相关代码
contrib/pg_trgm/trgm_gist.c


ltree
ltree 模块引入一种可以表达路径的数据类型ltree,比如:Top.Science.Astronomy.Astrophysics 。 ltree 模块包含了两个GiST索引操作符类。
gist_ltree_ops 操作符类
gist_ltree_ops用于索引ltree,它的算法是签名向量和Rtree的混合体。所以它既支持比较操作符(=, >),又支持匹配操作符(@>, 1)叶节点的索引项全部存储原始ltree数据
2)非叶节点的索引项存储标签集合的签名向量和Rtree需要的边界值
3)签名向量的大小为64bit

gist_ltree_ops的签名向量同样很小,损耗很大。 gist_ltree_ops对单个 标签的匹配查询效率很低,但是作为匹配条件的路径中一般包含多个标签,所以 查询效率可以得到成倍提高。

相关代码
contrib/ltree/ltree_gist.c

gist__ltree_ops 操作符类
gist__ltree_ops用于索引ltree的数组,采用类似hstore的GiST索引的签名向量的算法。
1)所有索引项都采用签名向量压缩
2)对ltree数组中的所有ltree的所有标签值都进行哈希设置bit位得到一个签名向量
3)签名向量的大小为224bit

相关代码
contrib/ltree/_ltree_gist.c

5. 总结:GiST还是GIN?

PostgreSQL中对很多集合数据类型同时提供GiST和GIN两种索引操作符类,该选哪个好,有时让人头疼。对查询操作,无疑GIN索引要优于GiST。但是对更新操作,GIN索引要为 集合中的每个元素生成一个项目,而GiST是为整个集合生成一个项目,所以 GiST在更新操作上有优势GIN索引的问题很好量化,由GIN索引带来的更新操作的额外负担和平均每条记录中包含的 集合数据的大小成正比。而 GiST 索引在查询上的性能表现就严重依赖于操作符类如何在索引项目中存储集合数据了。有没有压缩?有损压缩还是无 损压缩? 压缩损耗有多大?所以要结合使用场景和GiST的压缩算法具体问题具体分析。


相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
4天前
|
SQL 关系型数据库 MySQL
深入解析MySQL的EXPLAIN:指标详解与索引优化
MySQL 中的 `EXPLAIN` 语句用于分析和优化 SQL 查询,帮助你了解查询优化器的执行计划。本文详细介绍了 `EXPLAIN` 输出的各项指标,如 `id`、`select_type`、`table`、`type`、`key` 等,并提供了如何利用这些指标优化索引结构和 SQL 语句的具体方法。通过实战案例,展示了如何通过创建合适索引和调整查询语句来提升查询性能。
38 9
|
1月前
|
缓存 关系型数据库 MySQL
MySQL索引策略与查询性能调优实战
在实际应用中,需要根据具体的业务需求和查询模式,综合运用索引策略和查询性能调优方法,不断地测试和优化,以提高MySQL数据库的查询性能。
|
2月前
|
存储 关系型数据库 MySQL
阿里面试:为什么要索引?什么是MySQL索引?底层结构是什么?
尼恩是一位资深架构师,他在自己的读者交流群中分享了关于MySQL索引的重要知识点。索引是帮助MySQL高效获取数据的数据结构,主要作用包括显著提升查询速度、降低磁盘I/O次数、优化排序与分组操作以及提升复杂查询的性能。MySQL支持多种索引类型,如主键索引、唯一索引、普通索引、全文索引和空间数据索引。索引的底层数据结构主要是B+树,它能够有效支持范围查询和顺序遍历,同时保持高效的插入、删除和查找性能。尼恩还强调了索引的优缺点,并提供了多个面试题及其解答,帮助读者在面试中脱颖而出。相关资料可在公众号【技术自由圈】获取。
|
2月前
|
SQL 关系型数据库 MySQL
案例剖析:MySQL唯一索引并发插入导致死锁!
案例剖析:MySQL唯一索引并发插入导致死锁!
182 0
案例剖析:MySQL唯一索引并发插入导致死锁!
|
8天前
|
缓存 关系型数据库 MySQL
MySQL 索引优化以及慢查询优化
通过本文的介绍,希望您能够深入理解MySQL索引优化和慢查询优化的方法,并在实际应用中灵活运用这些技术,提升数据库的整体性能。
49 18
|
1天前
|
存储 Oracle 关系型数据库
索引在手,查询无忧:MySQL索引简介
MySQL 是一款广泛使用的关系型数据库管理系统,在2024年5月的DB-Engines排名中得分1084,仅次于Oracle。本文介绍MySQL索引的工作原理和类型,包括B+Tree、Hash、Full-text索引,以及主键、唯一、普通索引等,帮助开发者优化查询性能。索引类似于图书馆的分类系统,能快速定位数据行,极大提高检索效率。
23 8
|
7天前
|
缓存 关系型数据库 MySQL
MySQL 索引优化以及慢查询优化
通过本文的介绍,希望您能够深入理解MySQL索引优化和慢查询优化的方法,并在实际应用中灵活运用这些技术,提升数据库的整体性能。
17 7
|
6天前
|
缓存 关系型数据库 MySQL
MySQL 索引优化与慢查询优化:原理与实践
通过本文的介绍,希望您能够深入理解MySQL索引优化与慢查询优化的原理和实践方法,并在实际项目中灵活运用这些技术,提升数据库的整体性能。
27 5
|
10天前
|
存储 关系型数据库 MySQL
Mysql索引:深入理解InnoDb聚集索引与MyisAm非聚集索引
通过本文的介绍,希望您能深入理解InnoDB聚集索引与MyISAM非聚集索引的概念、结构和应用场景,从而在实际工作中灵活运用这些知识,优化数据库性能。
59 7
|
26天前
|
关系型数据库 MySQL Java
MySQL索引优化与Java应用实践
【11月更文挑战第25天】在大数据量和高并发的业务场景下,MySQL数据库的索引优化是提升查询性能的关键。本文将深入探讨MySQL索引的多种类型、优化策略及其在Java应用中的实践,通过历史背景、业务场景、底层原理的介绍,并结合Java示例代码,帮助Java架构师更好地理解并应用这些技术。
25 2
下一篇
DataWorks