Doris给动态分区添加历史分区问题汇总

简介: Doris动态分区表添加历史分区

1:Doris建动态分区表的规则(部分规则,详情可看创建动态分区properties设置)

1.1:"dynamic_partition.enable" = "true",    -- 是否开启动态分区

1.2:"dynamic_partition.time_unit" = "DAY",              -- 动态分区调度单位

1.2:"dynamic_partition.end" = "3",            -- 提前创建分区数

1.3:"dynamic_partition.prefix" = "p",                          -- 分区前缀

假如在2024-10-30号创建一张动态分区表 那么它的分区如下:

image.png

会自动创建p20241030及预创建未来三天的分区,分区的范围为:

p20241030   [2024-10-30,2024-10-31)

p20241101   [2024-11-01,2024-11-02)

均为左闭右开区间


但是实际很多情况下都需要创建历史分区用来做离线T+1同步


2:为动态分区创建历史分区的步骤

一:手动将动态分区转为手动分区模式

alter table tb_name set ("dynamic_partition.enable" = "false";)

二:只创建一个历史分区的情况下,该历史数据包含所有时间的数据

alter table tb_name add partition p20241029 values less than ("2024-10-30");  -- 即添加p20241029分区,该分区存放pt< '2024-10-30'的所有数据

三:如果需要创建多个历史分区的情况下,需要注意分区的时段冲突问题

-- 比如说现在需要添加 p20241029  p20241028 p20241027三个历史分区
-- 首先假如p20241027为以上包含< '2024-10-28'的所有数据的情况
alter table tb_name add partition p20241027 values less than ("2024-10-28");
-- 为了避免时段冲突。接下来的两个分区创建如下
alter table tb_name add partition p20241028 values [("2024-10-28"),("2024-10-29"));
alter table tb_name add partition p20241029 values [("2024-10-29"),("2024-10-30"));

四:修改完之后记得开启动态分区模式

alter table tb_name set ("dynamic_partition.enable" = "true");
相关文章
|
SQL HIVE
Hive分区+根据分区查询
Hive分区+根据分区查询
|
流计算 Java SQL
Flink落HDFS数据按事件时间分区解决方案
0x1 摘要 Hive离线数仓中为了查询分析方便,几乎所有表都会划分分区,最为常见的是按天分区,Flink通过以下配置把数据写入HDFS, BucketingSink<Object> sink = new BucketingSink<>(path); //通过这样的方式来实现数据跨天分区 sink.
4437 0
|
6月前
|
分布式计算 关系型数据库 数据挖掘
实时数仓 Hologres产品使用合集之当使用动态分区管理功能按日期进行分区后,通过主键和segment_key进行时间范围查询性能变差是什么原因
实时数仓Hologres的基本概念和特点:1.一站式实时数仓引擎:Hologres集成了数据仓库、在线分析处理(OLAP)和在线服务(Serving)能力于一体,适合实时数据分析和决策支持场景。2.兼容PostgreSQL协议:Hologres支持标准SQL(兼容PostgreSQL协议和语法),使得迁移和集成变得简单。3.海量数据处理能力:能够处理PB级数据的多维分析和即席查询,支持高并发低延迟查询。4.实时性:支持数据的实时写入、实时更新和实时分析,满足对数据新鲜度要求高的业务场景。5.与大数据生态集成:与MaxCompute、Flink、DataWorks等阿里云产品深度融合,提供离在线
Doris动态分区表
Doris动态分区表 Doris动态分区表传参
|
6月前
|
机器学习/深度学习 SQL 分布式计算
MaxCompute产品使用问题之动态分区如何多分区写入
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
102 2
|
6月前
|
分布式计算 大数据 关系型数据库
MaxCompute产品使用问题之动态分区写入如何指定目标分区
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
143 2
|
6月前
|
SQL 分布式计算 DataWorks
MaxCompute产品使用问题之在同步表时,分区通常使用的是什么字段
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
SQL 关系型数据库 Serverless
PolarDB产品使用问题之分区表中,一般建议多少条记录创建一个分区
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
6月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用问题之如何对现有的非分区表数据进行分区处理
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
7月前
|
流计算
Flink CDC里关于doris的动态分区问题,对以及建好的动态分区表,可以再次修改历史分区的保留时间嘛?
【1月更文挑战第24天】【1月更文挑战第117篇】Flink CDC里关于doris的动态分区问题,对以及建好的动态分区表,可以再次修改历史分区的保留时间嘛?
182 6
下一篇
DataWorks