PostgreSQL的B-tree索引(上)

简介: PostgreSQL的B-tree索引


B-tree索引适合用于存储排序的数据。对于这种数据类型需要定义大于、大于等于、小于、小于等于操作符。

通常情况下,B-tree的索引记录存储在数据页中。叶子页中的记录包含索引数据(keys)以及指向heap tuple记录(即表的行记录TIDs)的指针。内部页中的记录包含指向索引子页的指针和子页中最小值。

B-tree有几点重要的特性:

1、B-tree是平衡树,即每个叶子页到root页中间有相同个数的内部页。因此查询任何一个值的时间是相同的。

2、B-tree中一个节点有多个分支,即每页(通常8KB)具有许多TIDs。因此B-tree的高度比较低,通常4到5层就可以存储大量行记录。

3、索引中的数据以非递减的顺序存储(页之间以及页内都是这种顺序),同级的数据页由双向链表连接。因此不需要每次都返回root,通过遍历链表就可以获取一个有序的数据集。

下面是一个索引的简单例子,该索引存储的记录为整型并只有一个字段:

该索引最顶层的页是元数据页,该数据页存储索引root页的相关信息。内部节点位于root下面,叶子页位于最下面一层。向下的箭头表示由叶子节点指向表记录(TIDs)。


等值查询


例如通过"indexed-field = expression"形式的条件查询49这个值。

root节点有三个记录:(4,32,64)。从root节点开始进行搜索,由于32≤ 49 < 64,所以选择32这个值进入其子节点。通过同样的方法继续向下进行搜索一直到叶子节点,最后查询到49这个值。

实际上,查询算法远不止看上去的这么简单。比如,该索引是非唯一索引时,允许存在许多相同值的记录,并且这些相同的记录不止存放在一个页中。此时该如何查询?我们返回到上面的的例子,定位到第二层节点(32,43,49)。如果选择49这个值并向下进入其子节点搜索,就会跳过前一个叶子页中的49这个值。因此,在内部节点进行等值查询49时,定位到49这个值,然后选择49的前一个值43,向下进入其子节点进行搜索。最后,在底层节点中从左到右进行搜索。

(另外一个复杂的地方是,查询的过程中树结构可能会改变,比如分裂)


非等值查询


通过"indexed-field ≤ expression" (or "indexed-field ≥ expression")查询时,首先通过"indexed-field = expression"形式进行等值(如果存在该值)查询,定位到叶子节点后,再向左或向右进行遍历检索。

下图是查询 n ≤ 35的示意图:

大于和小于可以通过同样的方法进行查询。查询时需要排除等值查询出的值。


范围查询


范围查询"expression1 ≤ indexed-field ≤ expression2"时,需要通过 "expression1 ≤ indexed-field =expression2"找到一匹配值,然后在叶子节点从左到右进行检索,一直到不满足"indexed-field ≤ expression2" 的条件为止;或者反过来,首先通过第二个表达式进行检索,在叶子节点定位到该值后,再从右向左进行检索,一直到不满足第一个表达式的条件为止。

下图是23 ≤ n ≤ 64的查询示意图:

案例


下面是一个查询计划的实例。通过demo database中的aircraft表进行介绍。该表有9行数据,由于整个表只有一个数据页,所以执行计划不会使用索引。为了解释说明问题,我们使用整个表进行说明。


demo=# select * from aircrafts;
  aircraft_code |        model        | range
 ---------------+---------------------+-------
  773           | Boeing 777-300      | 11100
  763           | Boeing 767-300      |  7900
 SU9           | Sukhoi SuperJet-100 |  3000
  320           | Airbus A320-200     |  5700
  321           | Airbus A321-200     |  5600
  319           | Airbus A319-100     |  6700
 733           | Boeing 737-300      |  4200
  CN1           | Cessna 208 Caravan  |  1200
 CR2           | Bombardier CRJ-200  |  2700
 (9 rows)
 demo=# create index on aircrafts(range);
 demo=# set enable_seqscan = off;

(更准确的方式:create index on aircrafts using btree(range),创建索引时默认构建B-tree索引。)

等值查询的执行计划:

1. demo=# explain(costs off) select * from aircrafts where range = 3000;
2.                     QUERY PLAN                     
3. ---------------------------------------------------
4.  Index Scan using aircrafts_range_idx on aircrafts
5.    Index Cond: (range = 3000)
6. (2 rows)

非等值查询的执行计划:

1. demo=# explain(costs off) select * from aircrafts where range < 3000;
2.                     QUERY PLAN                    
3. ---------------------------------------------------
4.  Index Scan using aircrafts_range_idx on aircrafts
5.    Index Cond: (range < 3000)
6. (2 rows)

范围查询的执行计划:

1. demo=# explain(costs off) select * from aircrafts
2. where range between 3000 and 5000;
3.                      QUERY PLAN                      
4. -----------------------------------------------------
5.  Index Scan using aircrafts_range_idx on aircrafts
6.    Index Cond: ((range >= 3000) AND (range <= 5000))
7. (2 rows)

排序


再次强调,通过index、index-only或bitmap扫描,btree访问方法可以返回有序的数据。因此如果表的排序条件上有索引,优化器会考虑以下方式:表的索引扫描;表的顺序扫描然后对结果集进行排序。


排序顺序


当创建索引时可以明确指定排序顺序。如下所示,在range列上建立一个索引,并且排序顺序为降序:


demo=# create index on aircrafts(range desc);


本案例中,大值会出现在树的左边,小值出现在右边。为什么有这样的需求?这样做是为了多列索引。创建aircraft的一个视图,通过range分成3部分:


1. demo=# create view aircrafts_v as
2. select model,
3.        case
4.            when range < 4000 then 1
5.            when range < 10000 then 2
6.            else 3
7.        end as class
8. from aircrafts;
9. 
10. 
11. demo=# select * from aircrafts_v;
12.         model        | class
13. ---------------------+-------
14.  Boeing 777-300      |     3
15.  Boeing 767-300      |     2
16.  Sukhoi SuperJet-100 |     1
17.  Airbus A320-200     |     2
18.  Airbus A321-200     |     2
19.  Airbus A319-100     |     2
20.  Boeing 737-300      |     2
21.  Cessna 208 Caravan  |     1
22.  Bombardier CRJ-200  |     1
23. (9 rows)

然后创建一个索引(使用下面表达式):


1. demo=# create index on aircrafts(
2.   (case when range < 4000 then 1 when range < 10000 then 2 else 3 end),
3.   model);


现在,可以通过索引以升序的方式获取排序的数据:


1. demo=# select class, model from aircrafts_v order by class, model;
2.  class |        model        
3. -------+---------------------
4.      1 | Bombardier CRJ-200
5.      1 | Cessna 208 Caravan
6.      1 | Sukhoi SuperJet-100
7.      2 | Airbus A319-100
8.      2 | Airbus A320-200
9.      2 | Airbus A321-200
10.      2 | Boeing 737-300
11.      2 | Boeing 767-300
12.      3 | Boeing 777-300
13. (9 rows)
14. 
15. 
16. demo=# explain(costs off)
17. select class, model from aircrafts_v order by class, model;
18.                        QUERY PLAN                       
19. --------------------------------------------------------
20.  Index Scan using aircrafts_case_model_idx on aircrafts
21. (1 row)

同样,可以以降序的方式获取排序的数据:

1. demo=# select class, model from aircrafts_v order by class desc, model desc;
2.  class |        model        
3. -------+---------------------
4.      3 | Boeing 777-300
5.      2 | Boeing 767-300
6.      2 | Boeing 737-300
7.      2 | Airbus A321-200
8.      2 | Airbus A320-200
9.      2 | Airbus A319-100
10.      1 | Sukhoi SuperJet-100
11.      1 | Cessna 208 Caravan
12.      1 | Bombardier CRJ-200
13. (9 rows)
14. demo=# explain(costs off)
15. select class, model from aircrafts_v order by class desc, model desc;
16.                            QUERY PLAN                            
17. -----------------------------------------------------------------
18.  Index Scan BACKWARD using aircrafts_case_model_idx on aircrafts
19. (1 row)

然而,如果一列以升序一列以降序的方式获取排序的数据的话,就不能使用索引,只能单独排序:

1. demo=# explain(costs off)
2. select class, model from aircrafts_v order by class ASC, model DESC;
3.                    QUERY PLAN                    
4. -------------------------------------------------
5.  Sort
6.    Sort Key: (CASE ... END), aircrafts.model DESC
7.    ->  Seq Scan on aircrafts
8. (3 rows)

(注意,最终执行计划会选择顺序扫描,忽略之前设置的enable_seqscan = off。因为这个设置并不会放弃表扫描,只是设置他的成本----查看costs on的执行计划)

若有使用索引,创建索引时指定排序的方向:

1. demo=# create index aircrafts_case_asc_model_desc_idx on aircrafts(
2.  (case
3.     when range < 4000 then 1
4.     when range < 10000 then 2
5.     else 3
6.   end) ASC,
7.   model DESC);
8. 
9. 
10. demo=# explain(costs off)
11. select class, model from aircrafts_v order by class ASC, model DESC;
12.                            QUERY PLAN                            
13. -----------------------------------------------------------------
14.  Index Scan using aircrafts_case_asc_model_desc_idx on aircrafts
15. (1 row)
相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍如何基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
目录
相关文章
|
5月前
|
存储 SQL 关系型数据库
mysql底层原理:索引、慢查询、 sql优化、事务、隔离级别、MVCC、redolog、undolog(图解+秒懂+史上最全)
mysql底层原理:索引、慢查询、 sql优化、事务、隔离级别、MVCC、redolog、undolog(图解+秒懂+史上最全)
mysql底层原理:索引、慢查询、 sql优化、事务、隔离级别、MVCC、redolog、undolog(图解+秒懂+史上最全)
|
5月前
|
存储 关系型数据库 MySQL
MySQL数据库索引的数据结构?
MySQL中默认使用B+tree索引,它是一种多路平衡搜索树,具有树高较低、检索速度快的特点。所有数据存储在叶子节点,非叶子节点仅作索引,且叶子节点形成双向链表,便于区间查询。
201 4
|
7月前
|
存储 关系型数据库 MySQL
阿里面试:MySQL 一个表最多 加几个索引? 6个?64个?还是多少?
阿里面试:MySQL 一个表最多 加几个索引? 6个?64个?还是多少?
阿里面试:MySQL 一个表最多 加几个索引? 6个?64个?还是多少?
|
6月前
|
存储 监控 关系型数据库
B-tree不是万能药:PostgreSQL索引失效的7种高频场景与破解方案
在PostgreSQL优化实践中,B-tree索引虽承担了80%以上的查询加速任务,但因多种原因可能导致索引失效,引发性能骤降。本文深入剖析7种高频失效场景,包括隐式类型转换、函数包裹列、前导通配符等,并通过实战案例揭示问题本质,提供生产验证的解决方案。同时,总结索引使用决策矩阵与关键原则,助你让索引真正发挥作用。
429 0
|
9月前
|
关系型数据库 MySQL 数据库
Mysql的索引
MYSQL索引主要有 : 单列索引 , 组合索引和空间索引 , 用的比较多的就是单列索引和组合索引 , 空间索引我这边没有用到过 单列索引 : 在MYSQL数据库表的某一列上面创建的索引叫单列索引 , 单列索引又分为 ● 普通索引:MySQL中基本索引类型,没有什么限制,允许在定义索引的列中插入重复值和空值,纯粹为了查询数据更快一点。 ● 唯一索引:索引列中的值必须是唯一的,但是允许为空值 ● 主键索引:是一种特殊的唯一索引,不允许有空值 ● 全文索引: 只有在MyISAM引擎、InnoDB(5.6以后)上才能使⽤用,而且只能在CHAR,VARCHAR,TEXT类型字段上使⽤用全⽂文索引。
|
5月前
|
存储 SQL 关系型数据库
MySQL 核心知识与索引优化全解析
本文系统梳理了 MySQL 的核心知识与索引优化策略。在基础概念部分,阐述了 char 与 varchar 在存储方式和性能上的差异,以及事务的 ACID 特性、并发事务问题及对应的隔离级别(MySQL 默认 REPEATABLE READ)。 索引基础部分,详解了 InnoDB 默认的 B+tree 索引结构(多路平衡树、叶子节点存数据、双向链表支持区间查询),区分了聚簇索引(数据与索引共存,唯一)和二级索引(数据与索引分离,多个),解释了回表查询的概念及优化方法,并分析了 B+tree 作为索引结构的优势(树高低、效率稳、支持区间查询)。 索引优化部分,列出了索引创建的六大原则
147 2
|
SQL 关系型数据库 MySQL
深入解析MySQL的EXPLAIN:指标详解与索引优化
MySQL 中的 `EXPLAIN` 语句用于分析和优化 SQL 查询,帮助你了解查询优化器的执行计划。本文详细介绍了 `EXPLAIN` 输出的各项指标,如 `id`、`select_type`、`table`、`type`、`key` 等,并提供了如何利用这些指标优化索引结构和 SQL 语句的具体方法。通过实战案例,展示了如何通过创建合适索引和调整查询语句来提升查询性能。
2547 10
|
6月前
|
存储 关系型数据库 MySQL
MySQL覆盖索引解释
总之,覆盖索引就像是图书馆中那些使得搜索变得极为迅速和简单的工具,一旦正确使用,就会让你的数据库查询飞快而轻便。让数据检索就像是读者在图书目录中以最快速度找到所需信息一样简便。这样的效率和速度,让覆盖索引成为数据库优化师傅们手中的尚方宝剑,既能够提升性能,又能够保持系统的整洁高效。
175 9
|
7月前
|
机器学习/深度学习 关系型数据库 MySQL
对比MySQL全文索引与常规索引的互异性
现在,你或许明白了这两种索引的差异,但任何技术决策都不应仅仅基于理论之上。你可以创建你的数据库实验环境,尝试不同类型的索引,看看它们如何影响性能,感受它们真实的力量。只有这样,你才能熟悉它们,掌握什么时候使用全文索引,什么时候使用常规索引,以适应复杂多变的业务需求。
202 12
|
11月前
|
存储 关系型数据库 MySQL
MySQL索引学习笔记
本文深入探讨了MySQL数据库中慢查询分析的关键概念和技术手段。
731 81

热门文章

最新文章

推荐镜像

更多