MySQL · 特性分析 · 直方图的实现与分析

本文涉及的产品
云数据库 RDS SQL Server,基础系列 2核4GB
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
云原生数据库 PolarDB 分布式版,标准版 2核8GB
简介: 直方图(Histogram)是 RDBMS 中提供的一种基础的统计信息,最典型的用途是估计查询谓词的选择率,以便选择优化的查询执行计划。常见的直方图种类有:等宽直方图、等高直方图、V-优化的直方图,MaxDiff 直方图等等。RDBMS 产品最初使用的直方图非常简单(只有一个桶),后来逐步演化到等宽直方图、等高直方图等。MariaDB 10.0.2 就已在 server 层实现了直方图功能,参考T

直方图(Histogram)是 RDBMS 中提供的一种基础的统计信息,最典型的用途是估计查询谓词的选择率,以便选择优化的查询执行计划。常见的直方图种类有:等宽直方图、等高直方图、V-优化的直方图,MaxDiff 直方图等等。RDBMS 产品最初使用的直方图非常简单(只有一个桶),后来逐步演化到等宽直方图、等高直方图等。MariaDB 10.0.2 就已在 server 层实现了直方图功能,参考Take into account the selectivityHistogram based statistics。MySQL 在8.0.0 中也引入了直方图,参考WL#8706WL8707

MySQL 直方图的功能

直方图会持久化存储到一个新的系统表 mysql.column_stats,表名与 MariaDB 的一样,但是定义是不同的。直方图的主要数据保存在一个 JSON 类型的名为 histogram 的列中。因为 8.0 的字典表都采用了 InnoDB 引擎,这个表也不例外。
该特性支持所有的数据类型,包括数值类型、字符串、大对象、枚举类型等,也支持 GENERATED COLUMN。

MySQL 支持两种类型的直方图,第一种是等宽直方图的一种特殊情况,每个桶只有一个值,因此只需要保存该值和累积的频率。另一种是等高直方图,每个桶需要保存下界、上界、累积频率以及不同值的个数(Number of Distinct Value,NDV)。这两种直方图与 Oracle 的是类似的,见Histograms Part 1/Part 2/Part 3

执行 ANALYZE TABLE [table] UPDATE HISTOGRAMS 命令可以产生表上各列的直方图,默认情况下这些信息会被复制到备库。

在文件 scripts/mysql_systemtables.sql 中可以看到该表的定义:

--
-- Column statistics
--

CREATE TABLE IF NOT EXISTS column_stats (
  database_name VARCHAR(64) NOT NULL,
  table_name VARCHAR(64) NOT NULL,
  column_name VARCHAR(64) NOT NULL,
  histogram JSON NOT NULL,
  PRIMARY KEY (database_name, table_name, column_name)
) ENGINE=InnoDB CHARACTER SET=utf8 COLLATE=utf8_bin
COMMENT="Column statistics";
AI 代码解读

下面是这两种直方图的示例。

Equi-height JSON definition
---------------------------

{
  // Last time the histogram was updated. As of now, this means "when the
  // histogram was created" (incremental updates are not supported). Date/time
  // is given in UTC.
  // -- J_DATETIME
  "last-updated": "2015-11-04 15:19:51.000000",

  // Histogram type. Always "equi-height" for equi-height histograms.
  // -- J_STRING
  "histogram-type": "equi-height",

  // Histogram buckets. This will always be at least one bucket.
  // -- J_ARRAY
  "buckets":
  [
    [
      // Lower inclusive value.
      // -- Data type depends on the source column.
      "0",

      // Upper inclusive value.
      // -- Data type depends on the source column.
      "002a38227ecc7f0d952e85ffe37832d3f58910da",

      // Cumulative frequence
      // -- J_DOUBLE
      0.001978728666831561,

      // Number of distinct values in this bucket.
      // -- J_UINT
      10
    ]
  ]
}

Singleton JSON definition
-------------------------

{
  // Last time the histogram was updated. As of now, this means "when the
  // histogram was created" (incremental updates are not supported). Date/time
  // is given in UTC.
  // -- J_DATETIME
  "last-updated": "2015-11-04 15:19:51.000000",

  // Histogram type. Always "singleton" for singleton histograms.
  // -- J_STRING
  "histogram-type": "singleton",

  // Histogram buckets. This will always be at least one bucket.
  // -- J_ARRAY
  "buckets":
  [
    [
      // Value value.
      // -- Data type depends on the source column.
      42,

      // Cumulative frequence
      // -- J_DOUBLE
      0.001978728666831561,
    ]
  ]
}
AI 代码解读

MySQL 直方图的实现

MySQL 8.0 的代码做过不少重整,目录结构也比以前清楚多了。直方图的源代码都在目录sql/histograms 下,包括以下文件。

  • equi_height_bucket.cc
  • equi_height_bucket.h
  • equi_height.cc
  • equi_height.h
  • histogram.cc
  • histogram.h
  • singleton.cc
  • singleton.h

对应的单元测试文件为:unittest/gunit/histograms-t.cc。可以看到,代码用到了 C++11 的一些特性,并且还写了比较完整的单元测试,可读性很好。代码主要部分是这三个类:直方图的基类 Histogram,以及实现等宽直方图、等高直方图的两个类 Singleton 和 Equi_height。

对外的主要接口是创建直方图的函数:

template <class T>
Histogram *build_histogram(MEM_ROOT *mem_root,
                           const value_map_type<T> &value_map,
                           ha_rows num_null_values, size_t num_buckets,
                           std::string db_name, std::string tbl_name,
                           std::string col_name)
AI 代码解读

输入的数据需要放到一个 map 里头,表示每个值以及对应的出现次数,map 是按照值排序的。直方图一般不会对表中的所有数据逐行进行分析建立,这样做的代价太高了;很多实现都是通过对数据采样进行的。因此,这里用 map 而不是 iterator 也是比较自然的。如果桶的个数(num_buckets)比不同值的个数要大,则自动选择创建一个等宽直方图;否则创建一个等高直方图。

/*
  If the number of buckets specified is greater or equal to the number
  of distinct values, we create a Singleton histogram. Otherwise we create
  an equi-height histogram.
*/
 if (num_buckets >= value_map.size())
 {
   Singleton<T> *singleton=
     new(mem_root) Singleton<T>(mem_root, db_name, tbl_name, col_name);
..
   if (singleton->build_histogram(value_map, num_null_values))
     return nullptr;                         /* purecov: inspected */
..
 }
 else
 {
   Equi_height<T> *equi_height=
     new(mem_root) Equi_height<T>(mem_root, db_name, tbl_name, col_name);
..
AI 代码解读

两种直方图的创建逻辑都比较简单,可以参看:
Singleton<T>::build~histogram~() 和 Equi~height~<T>::build~histogram~()。

总结

通过参考资料中的内容,与 Oracle、MariaDB 做个对比,很容易发现 MySQL 8.0 目前实现的直方图还只是提供了最基础的功能,还不能用来改进查询执行计划。

Footnotes

  1. Take into account the selectivity
  2. Histogram based statistics
  3. WL#8706: Persistent storage of Histogram data
  4. WL#8707: Classes/structures for Histograms
  5. Histograms Part 1
  6. Histograms Part 2
  7. Histograms Part 3
相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
db匠
+关注
目录
打赏
0
0
0
0
9495
分享
相关文章
无缝集成 MySQL,解锁秒级 OLAP 分析性能极限,完成任务可领取三合一数据线!
通过 AnalyticDB MySQL 版、DMS、DTS 和 RDS MySQL 版协同工作,解决大规模业务数据统计难题,参与活动完成任务即可领取三合一数据线(限量200个),还有机会抽取蓝牙音箱大奖!
MySQL事务日志-Undo Log工作原理分析
事务的持久性是交由Redo Log来保证,原子性则是交由Undo Log来保证。如果事务中的SQL执行到一半出现错误,需要把前面已经执行过的SQL撤销以达到原子性的目的,这个过程也叫做"回滚",所以Undo Log也叫回滚日志。
129 7
MySQL事务日志-Undo Log工作原理分析
mysql慢查询每日汇报与分析
通过启用慢查询日志、提取和分析慢查询日志,可以有效识别和优化数据库中的性能瓶颈。结合适当的自动化工具和优化措施,可以显著提高MySQL数据库的性能和稳定性。希望本文的详解和示例能够为数据库管理人员提供有价值的参考,帮助实现高效的数据库管理。
59 11
【MySQL基础篇】事务(事务操作、事务四大特性、并发事务问题、事务隔离级别)
事务是MySQL中一组不可分割的操作集合,确保所有操作要么全部成功,要么全部失败。本文利用SQL演示并总结了事务操作、事务四大特性、并发事务问题、事务隔离级别。
1125 2
【MySQL基础篇】事务(事务操作、事务四大特性、并发事务问题、事务隔离级别)
MySQL原理简介—4.深入分析Buffer Pool
本文介绍了MySQL的Buffer Pool机制,包括其作用、配置方法及内部结构。Buffer Pool是MySQL用于缓存磁盘数据页的关键组件,能显著提升数据库读写性能。默认大小为128MB,可根据服务器配置调整(如32GB内存可设为2GB)。它通过free链表管理空闲缓存页,flush链表记录脏页,并用LRU链表区分冷热数据以优化淘汰策略。此外,还探讨了多Buffer Pool实例、chunk动态调整等优化并发性能的方法,以及如何通过`show engine innodb status`查看Buffer Pool状态。关键词:MySQL内存数据更新机制。
MySQL 窗口函数详解:分析性查询的强大工具
MySQL 窗口函数从 8.0 版本开始支持,提供了一种灵活的方式处理 SQL 查询中的数据。无需分组即可对行集进行分析,常用于计算排名、累计和、移动平均值等。基本语法包括 `function_name([arguments]) OVER ([PARTITION BY columns] [ORDER BY columns] [frame_clause])`,常见函数有 `ROW_NUMBER()`, `RANK()`, `DENSE_RANK()`, `SUM()`, `AVG()` 等。窗口框架定义了计算聚合值时应包含的行。适用于复杂数据操作和分析报告。
202 11
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1910 14
MySQL事务日志-Redo Log工作原理分析
mysql事务特性
原子性:一个事务内的操作统一成功或失败 一致性:事务前后的数据总量不变 隔离性:事务与事务之间相互不影响 持久性:事务一旦提交发生的改变不可逆
MySQL 8.0特性-自增变量的持久化
【11月更文挑战第8天】在 MySQL 8.0 之前,自增变量(`AUTO_INCREMENT`)的行为在服务器重启后可能会发生变化,导致意外结果。MySQL 8.0 引入了自增变量的持久化特性,将其信息存储在数据字典中,确保重启后的一致性。这提高了开发和管理的稳定性,减少了主键冲突和数据不一致的风险。默认情况下,MySQL 8.0 启用了这一特性,但在升级时需注意行为变化。
121 1
MySQL 8.0 新特性
MySQL 8.0 新特性
225 10
MySQL 8.0 新特性

相关产品

  • 云数据库 RDS MySQL 版
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等