分区表和分桶表(高频重点)

简介: 分区表和分桶表(高频重点)

分区表:分区表实际上对应 HDFS 文件系统上的独立的文件夹,其实就是分目录,将一个大的数据集根据业务需要分割成小的数据集。在查询时可通过 where 子句中的表达式选择指定的分区,以此避免全表扫描,从而提高查询效率。

分桶表:分区提供了一个隔离数据和优化查询的便利方式,但并不是所有的数据集都可形成合理的分区。对于一张表或者分区表,可以进一步组织成桶,也就是更为细粒度的数据范围。分桶就是将表中记录按分桶键的哈希值分散进多个小文件中,这些小文件称为桶。一般用于数据量极大的时候。

数据分散规则:分桶字段的 hash 值 对 分桶数量进行取模

分桶是相对分区进行更细粒度的划分。分桶将整个数据内容按照某列属性值的 hash 值进行区分,如要按照 name 属性分为 3 个桶,就是对 name 属性值的 hash 值对 3 取摸,按照取模结果对数据分桶。如取模结果为 0 的数据记录存放到一个文件,取模为 1 的数据存放到一个文件,取模为 2 的数据存放到一个文件

分区表和分桶表的区别:

1. 从表现形式上:分区针对的是数据的存储路径,分区表可以理解为文件夹;分桶针对的是数据文件,分桶表是文件。

2. 从创建语句上:分区表使用 partitioned by 子句指定,分桶表由 clustered by 指定。

3. 从数量上:分区表的分区个数可以增长,分桶表一旦指定就不能再增长。

4. 从作用上:分区可以避免全表扫描,根据分区列查询指定目录来提高查询速度

                    分桶的话,数据已经按照分桶字段进行了 hash 散列,所以分桶表数据进行                       抽样和 JOIN 时可以提高 MR 程序效率。

相关文章
|
存储 索引
维度表和事实表的区别
转载:转载:https://blog.csdn.net/qq_56870570/article/details/118938411
3957 0
|
27天前
|
分布式计算 关系型数据库 数据挖掘
实时数仓 Hologres产品使用合集之当使用动态分区管理功能按日期进行分区后,通过主键和segment_key进行时间范围查询性能变差是什么原因
实时数仓Hologres的基本概念和特点:1.一站式实时数仓引擎:Hologres集成了数据仓库、在线分析处理(OLAP)和在线服务(Serving)能力于一体,适合实时数据分析和决策支持场景。2.兼容PostgreSQL协议:Hologres支持标准SQL(兼容PostgreSQL协议和语法),使得迁移和集成变得简单。3.海量数据处理能力:能够处理PB级数据的多维分析和即席查询,支持高并发低延迟查询。4.实时性:支持数据的实时写入、实时更新和实时分析,满足对数据新鲜度要求高的业务场景。5.与大数据生态集成:与MaxCompute、Flink、DataWorks等阿里云产品深度融合,提供离在线
|
2月前
|
存储 关系型数据库 MySQL
MySQL数据库性能大揭秘:表设计优化的高效策略(优化数据类型、增加冗余字段、拆分表以及使用非空约束)
MySQL数据库性能大揭秘:表设计优化的高效策略(优化数据类型、增加冗余字段、拆分表以及使用非空约束)
|
26天前
|
存储 关系型数据库 MySQL
【高频】什么是索引的下推和覆盖
【高频】什么是索引的下推和覆盖
|
10月前
|
负载均衡 监控 定位技术
分库表数据倾斜的处理让我联想到了 AKF 模型
这里的特殊性可以是表中字段的某一个属性,比如订单编号、创建时间等等。这就需要我们根据实际情况,既要拆分的均匀又要拆分之后能满足未来几年的发展,同时还要满足现有业务的支持。
66 0
|
存储 JavaScript Java
亿级别大表拆分 —— 记一次分表工作的心路历程
亿级别大表拆分 —— 记一次分表工作的心路历程
|
SQL 关系型数据库 MySQL
索引单表优化案例|学习笔记
快速学习索引单表优化案例
105 0
|
SQL 缓存 监控
列表查询的通用优化方案
> 列表查询是服务端开发中非常高频的诉求,接口的性能往往会跟用户体验强关联。本文通过一个具体的例子,来总结服务端写查询接口时的通用优化方案。 ## 一个例子 ### 功能诉求 给出一个具体的例子,背景是根据内容ID来查询内容信息(如下),目标是通过编码优化使得这个查询效率变快,减少上游(客户端App或外部服务)的等待时间。 ```java public interfa
1201 1
列表查询的通用优化方案
|
存储 人工智能 大数据
分区取模分库分表策略:多表事务分库内闭环解决方案
当表数据超过一定量级,就需要通过分表来解决单表的性能瓶颈问题;当数据库负载超过一定水平线,就需要通过分库来解决单库的连接数、性能负载的瓶颈问题。本文将阐述在不同情况下,让不同数量级表,在同一个业务ID的事务操作路由到同一分库中的方案,省去解决垮库事务的烦恼。
分区取模分库分表策略:多表事务分库内闭环解决方案