Apache doris 排序键及ShortKey Index

简介: Apache Doris中为加速查询,在内部组织并存储数据时,会把表中数据按照指定的列进行排序,这部分用于排序的列(可以是一个或多个列),可以称之为Sort Key。明细模型中Sort Key就是指定的用于排序的列(即 DUPLICATE KEY 指定的列),聚合模型中Sort Key列就是用于聚合的列(即 AGGREGATE KEY 指定的列),唯一主键模型中Sort Key就是指定的满足唯一性约束的列(即 UNIQUE KEY 指定的列)。

1.排序列的原理


Apache Doris中为加速查询,在内部组织并存储数据时,会把表中数据按照指定的列进行排序,这部分用于排序的列(可以是一个或多个列),可以称之为Sort Key。明细模型中Sort Key就是指定的用于排序的列(即 DUPLICATE KEY 指定的列),聚合模型中Sort Key列就是用于聚合的列(即 AGGREGATE KEY 指定的列),唯一主键模型中Sort Key就是指定的满足唯一性约束的列(即 UNIQUE KEY 指定的列)。下图中的建表语句中Sort Key都为 (user_id, date, city, age, sex)。


CREATE TABLE user_access_dup
(
    `user_id` LARGEINT NOT NULL COMMENT "用户id",
    `date` DATE NOT NULL COMMENT "数据灌入日期时间",
    `city` VARCHAR(20) COMMENT "用户所在城市",
    `age` SMALLINT COMMENT "用户年龄",
    `sex` TINYINT COMMENT "用户性别",
     user_name VARCHAR(32) DEFAULT '',
    `last_visit_date` DATETIME DEFAULT "1970-01-01 00:00:00" COMMENT "用户最后一次访问时间",
    `cost` BIGINT DEFAULT "0" COMMENT "用户总消费",
    `max_dwell_time` INT DEFAULT "0" COMMENT "用户最大停留时间",
    `min_dwell_time` INT DEFAULT "99999" COMMENT "用户最小停留时间"
)
DUPLICATE KEY(user_id, date, city, age, sex)
DISTRIBUTED BY HASH(city) BUCKETS 10;
CREATE TABLE user_access_agg
(
    `user_id` LARGEINT NOT NULL COMMENT "用户id",
    `date` DATE NOT NULL COMMENT "数据灌入日期时间",
    `city` VARCHAR(20) COMMENT "用户所在城市",
    `age` SMALLINT COMMENT "用户年龄",
    `sex` TINYINT COMMENT "用户性别",
     user_name VARCHAR(32) DEFAULT '',
    `last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "用户最后一次访问时间",
    `cost` BIGINT SUM DEFAULT "0" COMMENT "用户总消费",
    `max_dwell_time` INT MAX DEFAULT "0" COMMENT "用户最大停留时间",
    `min_dwell_time` INT MIN DEFAULT "99999" COMMENT "用户最小停留时间"
)
AGGREGATE KEY(user_id, date, city, age, sex)
DISTRIBUTED BY HASH(city) BUCKETS 10;
CREATE TABLE user_access_unique
(
    `user_id` LARGEINT NOT NULL COMMENT "用户id",
    `date` DATE NOT NULL COMMENT "数据灌入日期时间",
    `city` VARCHAR(20) COMMENT "用户所在城市",
    `age` SMALLINT COMMENT "用户年龄",
    `sex` TINYINT COMMENT "用户性别",
     user_name VARCHAR(32) DEFAULT '',
    `last_visit_date` DATETIME DEFAULT "1970-01-01 00:00:00" COMMENT "用户最后一次访问时间",
    `cost` BIGINT DEFAULT "0" COMMENT "用户总消费",
    `max_dwell_time` INT DEFAULT "0" COMMENT "用户最大停留时间",
    `min_dwell_time` INT EFAULT "99999" COMMENT "用户最小停留时间"
)
UNIQUE KEY(user_id, date, city, age, sex)
DISTRIBUTED BY HASH(city) BUCKETS 10;

各表数据都依照user_id, date, city, age, sex这四列排序。这里有两点需要注意:


排序列的定义必须出现在建表语句中其他列的定义之前。的建表语句为例,三个表的排序列可以是user_id, date, city, age, sex,或者user_id, date, city, age, sex,user_name,但不能是user_id, date, city, ,user_name,或者user_id, date, city, age, sex


排序列的顺序是由create table语句中的列顺序决定的。


DUPLICATE/UNIQUE/AGGREGATE KEY中顺序需要和create table语句保持一致。以user_access_dup表为例,也就是说下面的建表语句会报错。


-- 错误的建表语句

CREATE TABLE user_access_dup
(
    `user_id` LARGEINT NOT NULL COMMENT "用户id",
    `date` DATE NOT NULL COMMENT "数据灌入日期时间",
    `city` VARCHAR(20) COMMENT "用户所在城市",
    `age` SMALLINT COMMENT "用户年龄",
    `sex` TINYINT COMMENT "用户性别",
     user_name VARCHAR(32) DEFAULT '',
    `last_visit_date` DATETIME DEFAULT "1970-01-01 00:00:00" COMMENT "用户最后一次访问时间",
    `cost` BIGINT DEFAULT "0" COMMENT "用户总消费",
    `max_dwell_time` INT DEFAULT "0" COMMENT "用户最大停留时间",
    `min_dwell_time` INT EFAULT "99999" COMMENT "用户最小停留时间"
)
DUPLICATE KEY(date,user_id,city,age,sex)
DISTRIBUTED BY HASH(city) BUCKETS 10;
-- 正确的建表语句
CREATE TABLE user_access_dup
(
    `user_id` LARGEINT NOT NULL COMMENT "用户id",
    `date` DATE NOT NULL COMMENT "数据灌入日期时间",
    `city` VARCHAR(20) COMMENT "用户所在城市",
    `age` SMALLINT COMMENT "用户年龄",
    `sex` TINYINT COMMENT "用户性别",
     user_name VARCHAR(32) DEFAULT '',
    `last_visit_date` DATETIME DEFAULT "1970-01-01 00:00:00" COMMENT "用户最后一次访问时间",
    `cost` BIGINT DEFAULT "0" COMMENT "用户总消费",
    `max_dwell_time` INT DEFAULT "0" COMMENT "用户最大停留时间",
    `min_dwell_time` INT EFAULT "99999" COMMENT "用户最小停留时间"
)
DUPLICATE KEY(user_id, date, city, age, sex)
DISTRIBUTED BY HASH(city) BUCKETS 10;
DUPLICATE KEY列顺序与CREATE TABLE中不一致

再来看一下排序列在查询中的效果,图1中排序列的效果可分三种情况进行描述:


用户查询时如果条件包含上述两列,则可以大幅地降低扫描数据行,如:

select sum(cost) from user_access_dup where user_id = 123 and city = 2 ;

如果查询只包含site_id一列,也能定位到只包含user_id 的数据行,如:


select sum(cost) from user_access_dup where user_id = 123;

如果查询只包含city一列,那么需要扫描所有的数据行,排序的效果相当于大打折扣,如:


select sum(cost) from user_access_dup  where city = 2;

在第一个case中,为了定位到数据行的位置,需进行二分查找,以找到指定区间。假设数据行非常多,直接对user_id, date, city, age, sex进行二分查找,需要把两列数据都加载到内存中,这会消耗大量内存空间。为优化这个细节,Doris在Sort Key的基础上引入稀疏的shortkey index,Sort Index的内容会比数据量少1024倍,因此会全量缓存在内存中,实际查找的过程中可以有效加速查询。当Sort Key列数非常多时,会占用大量内存, 为了避免这种情况, 对shortkey index索引项做了限制:


shortkey 的列只能是排序键的前缀;


shortkey 列数不超过3;


字节数不超过36字节;


不包含FLOAT/DOUBLE类型的列;


VARCHAR类型列只能出现一次, 并且是末尾位置;


当shortkey index的末尾列为CHAR或者VARCHAR类型时, shortkey的长度会超过36字节;

当用户在建表语句中指定short_key属性时,例如”short_key” = “4”指定4个列作为short_key, 可突破上述限制;


  1. 如何选择排序列


从上面的介绍可以看出,如果用户在查询user_access_dup表时只选择city做查询条件,排序列相当于失去了功效。因此排序列的选择是和查询模式息息相关的,经常作为查询条件的列建议放在Sort Key中。


当Sort Key涉及多个列的时候,谁先谁后也有讲究,区分度高、经常查询的列建议放在前面。在user_access_dup表中,city的取值个数是固定的(城市数目是固定的),而user_id的取值个数要比city大得多,而且还在不断变多,因此user_id区分度就比city要高不少。


还是以user_access_dup表为例:


如果用户需要经常按user_id + date + city + age + sex的组合进行查询,那么把user_id 放在Sort Key第一列就是更加有效的一种方式。


如果用户需要经常用 city进行查询,偶尔按照 user_id + date + city + age + sex 组合查询,那么把 city 放在 Sort Key 的第一列就更为合适。


当然有一种极端情况,就是按user_id + date组合查询、以及city + date 查询的比例不相上下。那么这个时候,可以创建一个city + date 为组合 key 的 RollUp 表,RollUp表会为city,date 再建一个Sort Index。


  1. 注意事项

  2. 由于Doris的shortkey索引大小固定(只有36字节),所以不会存在内存膨胀的问题。需要注意的是:


排序列中包含的列必须是从第一列开始,并且连续的。


排序列的顺序是由create table语句中的列顺序决定的。


Sort Key不应该包含过多的列。如果选择了大量的列用于Sort Key,那么排序的开销会导致数据导入的开销增加。


在大多数时候,Sort Key的前面几列也能很准确的定位到数据行所在的区间,更多列的排序也不会带来查询的提升




目录
相关文章
|
3月前
|
消息中间件 OLAP Kafka
Apache Doris 实时更新技术揭秘:为何在 OLAP 领域表现卓越?
Apache Doris 为何在 OLAP 领域表现卓越?凭借其主键模型、数据延迟、查询性能、并发处理、易用性等多方面特性的表现,在分析领域展现了独特的实时更新能力。
260 9
|
4月前
|
JSON 关系型数据库 Apache
十亿 JSON 秒级响应:Apache Doris vs ClickHouse,Elasticsearch,PostgreSQL
JSONBench 是一个为 JSON 数据而生的数据分析 Benchmark,在默认设置下,Doris 的性能表现是 Elasticsearch 的 2 倍,是 PostgreSQL 的 80 倍。调优后,Doris 查询整体耗时降低了 74%,对比原榜单第一的 ClickHouse 产品实现了 39% 的领先优势。本文详细描述了调优思路与 Doris 调优前后的性能表现,欢迎阅读了解~
609 0
十亿 JSON 秒级响应:Apache Doris vs ClickHouse,Elasticsearch,PostgreSQL
|
2月前
|
存储 自然语言处理 分布式计算
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
Apache Doris 3.1 正式发布!全面升级半结构化分析,支持 VARIANT 稀疏列与模板化 Schema,提升湖仓一体能力,增强 Iceberg/Paimon 集成,优化存储引擎与查询性能,助力高效数据分析。
337 4
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
|
2月前
|
SQL 人工智能 数据挖掘
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
Apache Doris 4.0 原生集成 LLM 函数,将大语言模型能力深度融入 SQL 引擎,实现文本处理智能化与数据分析一体化。通过十大函数,支持智能客服、内容分析、金融风控等场景,提升实时决策效率。采用资源池化管理,保障数据一致性,降低传输开销,毫秒级完成 AI 分析。结合缓存复用、并行执行与权限控制,兼顾性能、成本与安全,推动数据库向 AI 原生演进。
214 0
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
|
3月前
|
存储 分布式计算 Apache
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
小米通过将 Apache Doris(数据库)与 Apache Paimon(数据湖)深度融合,不仅解决了数据湖分析的性能瓶颈,更实现了 “1+1>2” 的协同效应。在这些实践下,小米在湖仓数据分析场景下获得了可观的业务收益。
666 9
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
|
3月前
|
人工智能 运维 监控
智能运维与数据治理:基于 Apache Doris 的 Data Agent 解决方案
本文基于 Apache Doris 数据运维治理 Agent 展开讨论,如何让 AI 成为 Doris 数据运维工程师和数据治理专家的智能助手,并在某些场景下实现对人工操作的全面替代。这种变革不仅仅是技术层面的进步,更是数据运维治理思维方式的根本性转变:从“被动响应”到“主动预防”,从“人工判断”到“智能决策”,从“孤立处理”到“协同治理”。
475 11
智能运维与数据治理:基于 Apache Doris 的 Data Agent 解决方案
|
3月前
|
SQL 存储 运维
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
本文介绍了 Apache Doris 在菜鸟的大规模落地的实践经验,菜鸟为什么选择 Doris,以及 Doris 如何在菜鸟从 0 开始,一步步的验证、落地,到如今上万核的规模,服务于各个业务线,Doris 已然成为菜鸟 OLAP 数据分析的最优选型。
218 2
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
|
3月前
|
SQL 存储 JSON
Apache Doris 2.1.10 版本正式发布
亲爱的社区小伙伴们,Apache Doris 2.1.10 版本已正式发布。2.1.10 版本对湖仓一体、半结构化数据类型、查询优化器、执行引擎、存储管理进行了若干改进优化。欢迎大家下载使用。
198 5
|
3月前
|
人工智能 自然语言处理 数据挖掘
Apache Doris 4.0 AI 能力揭秘(一):AI 函数之 LLM 函数介绍
在即将发布的 Apache Doris 4.0 版本中,我们正式引入了一系列 LLM 函数,将前沿的 AI 能力与日常的数据分析相结合,无论是精准提取文本信息,还是对评论进行情感分类,亦或生成精炼的文本摘要,皆可在数据库内部无缝完成。
207 0
Apache Doris 4.0 AI 能力揭秘(一):AI 函数之 LLM 函数介绍
|
5月前
|
人工智能 监控 数据挖掘
6/14 上海,Apache Doris x 阿里云 SelectDB AI 主题线下 Meetup 正式开启报名!
6 月 14 日,由 Apache Doris 社区、飞轮科技、阿里云联合发起的湖仓数智融合、AI 洞见未来:Apache Doris x 阿里云 SelectDB 联合 Meetup 将在上海·汇付天下总部大楼正式开启,邀您一同探索 AI 与数据分析的融合实践!
356 76

推荐镜像

更多
下一篇
开通oss服务