PLSQL_统计信息系列01_统计信息的概念和重要性

简介: 2014-12-18 Created By BaoXinjian 一、摘要 Statistic 对Oracle 是非常重要的。 它会收集数据库中对象的详细信息,并存储在相应的数据字典里。 根据这些统计信息, optimizer 可以对每个SQL 去选择最好的执行计划。

2014-12-18 Created By BaoXinjian

一、摘要


Statistic 对Oracle 是非常重要的。

它会收集数据库中对象的详细信息,并存储在相应的数据字典里。 根据这些统计信息, optimizer 可以对每个SQL 去选择最好的执行计划。

Statistic 对Oracle 是非常重要的,它会收集数据库中对象的详细信息,并存储在相应的数据字典里。

根据这些统计信息, optimizer 可以对每个SQL 去选择最好的执行计划。

Oracle Statistic 的收集,可以使用analyze 命令,也可以使用DBMS_STATS 包来收集。

Oracle 建议使用DBMS_STATS包来收集统计信息,因为DBMS_STATS包收集的更广,并且更准确,Analyze 在以后的版本中可能会被移除。

 

二、统计信息内容和层次


1. Table statistics

(1). 行数,块数,行平均长度

(2). DBA_TBALES:NUM_ROWS,BLOCKS,AVG_ROW_LEN;

  • Number of rows
  • Number of blocks
  • Average row length

2. Column statistics

(1). 列中唯一值的数量(NDV),NULL值的数量,数据分布;

(2). DBA_TAB_COLUMNS:NUM_DISTINCT,NUM_NULLS,HISTOGRAM;

  • Number of distinct values (NDV) in column
  • Number of nulls in column
  • Data distribution (histogram)

3. Index statistics

(1). 叶块数量,等级,聚簇因子;

(2). DBA_INDEXES:LEAF_BLOCKS,CLUSTERING_FACTOR,BLEVEL;

  • Number of leaf blocks
  • Levels
  • Clustering factor

4. System statistics

(1). 存储在aux_stats$中,需要使用dbms_stats收集,I/O统计在X$KCFIO中;

  • I/O performance and utilization
  • CPU performance and utilization

 

三、统计信息语法


1. analyze

需要使用ANALYZE统计的统计:使用LIST CHAINED ROWS和VALIDATE子句收集空闲列表块的统计;

analyze 不适合做分区表的分析

  • analyze table tablename compute statistics;
  • analyze index|cluster indexname estimate statistics;
  • analyze table tablename compute statistics for table /for all [local] indexes / for all [indexed] columns
  • analyze table tablename delete statistics
  • analyze table tablename validate ref update
  • analyze table tablename validate structure [cascade]|[into tablename]
  • analyze table tablename list chained rows [into tablename]

2. dbms_stats

dbms_stats能良好地估计统计数据(尤其是针对较大的分区表),并能获得更好的统计结果,最终制定出速度更快的SQL执行计划。

这个包的下面四个存储过程分别收集index、table、schema、database的统计信息:

  • dbms_stats.gather_table_stats     收集表、列和索引的统计信息;
  • dbms_stats.gather_schema_stats    收集SCHEMA下所有对象的统计信息;
  • dbms_stats.gather_index_stats     收集索引的统计信息;
  • dbms_stats.gather_system_stats    收集系统统计信息
  • dbms_stats.gather_dictioinary_stats   所有字典对象的统计;
  • dbms_stats.delete_table_stats     删除表的统计信息
  • dbms_stats.delete_index_stats     删除索引的统计信息
  • dbms_stats.export_table_stats     输出表的统计信息
  • dbms_stats.create_state_table
  • dbms_stats.set_table_stats     设置表的统计
  • dbms_stats.auto_sample_size

 

四、统计信息语法


4.1 统计信息收集如下数据:

(1)表自身的分析: 包括表中的行数,数据块数,行长等信息。

(2)列的分析:包括列值的重复数,列上的空值,数据在列上的分布情况。

(3)索引的分析: 包括索引叶块的数量,索引的深度,索引的聚合因子等。

4.2 这些统计信息存放在数据字典里,如:

(1).  DBA_TABLES

(2).  DBA_OBJECT_TABLES

(3).  DBA_TAB_STATISTICS

(4).  DBA_TAB_COL_STATISTICS

(5).  DBA_TAB_HISTOGRAMS

(6).  DBA_INDEXES

(7).  DBA_IND_STATISTICS

(8).  DBA_CLUSTERS

(9).  DBA_TAB_PARTITIONS

(10). DBA_TAB_SUBPARTITIONS

(11). DBA_IND_PARTITIONS

(12). DBA_IND_SUBPARTITIONS

(13). DBA_PART_COL_STATISTICS

(14). DBA_PART_HISTOGRAMS

(15). DBA_SUBPART_COL_STATISTICS

(16). DBA_SUBPART_HISTOGRAMS

4.3 表的统计信息:

包含表行数,使用的块数,空的块数,块的使用率,行迁移和链接的数量,pctfree,pctused的数据,行的平均大小:

SELECT NUM_ROWS, --表中的记录数
        BLOCKS, --表中数据所占的数据块数 EMPTY_BLOCKS, --表中的空块数 AVG_SPACE, --数据块中平均的使用空间 CHAIN_CNT, --表中行连接和行迁移的数量 AVG_ROW_LEN --每条记录的平均长度 FROM USER_TABLES 

4.4 索引列的统计信息   

包含索引的深度(B-Tree的级别),索引叶级的块数量,集群因子(clustering_factor), 唯一值的个数。

SELECT BLEVEL, --索引的层数
    LEAF_BLOCKS, --叶子结点的个数 DISTINCT_KEYS, --唯一值的个数 AVG_LEAF_BLOCKS_PER_KEY, --每个KEY的平均叶块个数 AVG_DATA_BLOCKS_PER_KEY, --每个KEY的平均数据块个数 CLUSTERING_FACTOR --群集因子 FROM USER_INDEXES

4.5 列的统计信息  

包含 唯一的值个数,列最大小值,密度(选择率),数据分布(直方图信息),NUll值个数

SELECT NUM_DISTINCT, --唯一值的个数
    LOW_VALUE, --列上的最小值 HIGH_VALUE, --列上的最大值 DENSITY, --选择率因子(密度) NUM_NULLS, --空值的个数 NUM_BUCKETS, --直方图的BUCKET个数 HISTOGRAM --直方图的类型 FROM USER_TAB_COLUMNS

 

五、案例


案例: 查询表时,解析计划返回结果集Rows完全不正确,表通过大量的DML后,未进行分析导致统计信息过久

Step1. 建立测试SQL

Step2. 查看结果集的Cardinality

Step3. 查看表的统计计划,最后分析时间过久

Step4. 分析表

BEGIN
   DBMS_STATS.gather_table_stats ('SH', 'SALES'); END;

Step5. 分析表后统计信息变更为最新

Step6. 解析计划Cardinality变更更为准确

 

Thanks and Regards

参考: 一江水 - http://www.cnblogs.com/rootq/archive/2010/02/04/1663622.html

参考: David - http://blog.csdn.net/tianlesoftware/article/details/4668723

参考: Edwardking888 - http://blog.itpub.net/8183550/viewspace-666335/

ERP技术讨论群: 288307890
技术交流,技术讨论,欢迎加入
Technology Blog Created By Oracle ERP - 鲍新建
相关文章
|
3月前
|
SQL 算法 关系型数据库
浅析MySQL优化器统计信息
本文基于MySQL 8.0.34版本的源代码,详细介绍了MySQL中统计信息的计算和更新机制。文章首先概述了`records_per_key`统计信息在代价估计和Join Reorder算法中的重要性,接着了InnoDB统计信息的存储和计算方法,包括表级和索引级的统计信息。文章还介绍了统计信息的采样算法,特别是重要性采样在减少估计方差中的应用。此外,文章讨论了统计信息的更新时机,包括手动更新和自动更新。最后,文章简要介绍了直方图和其它统计信息,如表在内存中的占比估计,并通过实例展示了如何使用optimizer trace来分析查询优化过程。希望本文能帮助读者更好地理解MySQL的优化器。
|
Go 数据库 索引
第十二章——SQLServer统计信息(2)——非索引键上统计信息的影响
原文: 第十二章——SQLServer统计信息(2)——非索引键上统计信息的影响 前言:         索引对性能方面总是扮演着一个重要的角色,实际上,查询优化器首先检查谓词上的统计信息,然后才决定用什么索引。
993 0
|
Go 数据库 索引
第十二章——SQLServer统计信息(1)——创建和更新统计信息
原文: 第十二章——SQLServer统计信息(1)——创建和更新统计信息 简介: 查询的统计信息: 目前为止,已经介绍了选择索引、维护索引。
931 0

热门文章

最新文章