《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X的TTL表的使用和原理(1)

本文涉及的产品
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
简介: 《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X的TTL表的使用和原理(1)

作者:郁光辉阿里云PolarDB-X技术专家

 

TTLTime to Leave表示数据在表中的生存时间,过期后会自动删除。

 

实际应用中很多场景下数据与时间强相关,比如订单系统、快递电商系统以及系统日志等。一部分数据有很强的时效性,并且数据会随时间快速增长,热度下降也很快,可能会有点查、范围查询的请求,但该部分请求多访问比较新的数据,老数据很少会被访问到。如果数据一直存储在PolarDB中,会占用表空间,意味着存储成本会上升,且查询效率会下降。

 

image.png

 

与其一直付出代价维护数据,不如定期将部分数据删除或归档到成本更低的数据库中。比如可以归拢到列存数据库或OSS等系统中,关系型数据库中存储需要查询的较新数据,很少执行的数据存储在冷存储中。

 

此前,我们比较习惯于比如在MySQL中直接通过 delete+where语句删除数据,但问题在于如果数据规模较大,MySQL会认为这是一条需要全表扫描的SQL,会锁住整个B+Tree,也可能会产生大量Binlog。

 

因为删数据需要事务性保证,会占用MySQL大量磁盘空间。如果数据量太大,甚至会因为MySQL内存不够导致删失败,是一种比较危险的操作。即使删除成功,B+Tree占用的空间还在,并没有真正释放出磁盘空间,存储成本没有下降。

 

一般来说,大规模delete语句之后,还需要补充optimize操作,即重建B+Tree,会对所有数据进行搬运,同样可能造成锁表。

 

image.png

 

因此,我们考虑,是否可以将表空间按照时间进行分区,每个分区包含不同时间范围的数据。但PolarDB-X是分布式数据库,本身具有分区表功能。如上图所示,一张PolarDB-X表已经被按照ID做哈希分为四个分区,数据均匀分布在四个分区中,但是每个分区中的数据包含所有时间范围分区,而我们考虑能否在垂直方向上将每个分区再按照时间进行拆分,即上图中的partition by range columnsdate

 

在PolarDB-X分区表基础上,再叠加一层按照时间维度的拆分,直接作用到物理表上。如要删除老分区,只需对每个分区做drop partition的操作,即可实现快速删除的效果。而对于数据库内部来说,这只涉及到元数据操作,并没有真正发生磁盘IO。数据删除之后,后台线程可以慢慢将该部分数据删除,使得delete操作成为比较轻量级的操作。

 

针对部分不希望被直接删除的老数据,我们提供了数据归档功能,能够将数据归档到OSS存储中,并且提供了一定的存储能力。

 

image.png

 

PolarDB-X除了支持分区表之外,还支持全局二级索引,且全局二级索引也能够分布在不同数据节点上。因此,全局二级索引也可以看作分区表,数据行数与主表完全一样,只是包含的列数比较少,是主表的子集。

 

使用TTL表功能可以对几个重要参数进行设定。

 

每个分区的时间粒度:比如天、月、年。

 

expireAfterCount:数据过了多少个周期之后自动删除。

 

preAllocateCount:提前多少个时间周期创建分区。

 

PivotDate:时间基准,即以该时间为基准划定expireAfterCount和preAllocateCount 。默认为当前时间,也可以指定过去或未来的其他时间,可以是用表达式的方式。

 

上方图示为创建时的场景,下方图示为过了一个时间周期之后,最底下创建出了第十个分区,第一个分区已经过期,会删除或归档到OSS。其本质类似于滑动窗口的结构。

 

image.png

 

TTL表在PolarDB-X的database有两个模式,分别为DRDS和auto。TTL表只能在auto表中使用,创建方式很简单,只需在正常的create table后跟上TTL特有语法即可。

 

TTL语法中可以指定7个参数,如图所示,必填参数有两个,其一为希望用哪一列做TTL的分区列,其二为时间分区的间隔。另外,disable schedule指创建表时不要默认自动创建定时任务,如果不加该参数,则默认会自动创建;start with加上日期参数表示TTL表创建时第一个分区的初始时间。我们不希望系统内有些历史数据被放到TTL表中时直接被删除,或很多历史数据归档到会路由到同一分区,这将导致创建出的TTL表的第一个分区会包含非常多的数据。而如果提供了start with,可以将很多早期历史数据按照时间粒度做路由,避免上述情况的发生。

 


《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X的TTL表的使用和原理(2): https://developer.aliyun.com/article/1228587?groupCode=polardbforpg

 

 

相关实践学习
快速体验PolarDB开源数据库
本实验环境已内置PostgreSQL数据库以及PolarDB开源数据库:PolarDB PostgreSQL版和PolarDB分布式版,支持一键拉起使用,方便各位开发者学习使用。
相关文章
|
2月前
|
关系型数据库 MySQL 分布式数据库
零基础教你用云数据库PolarDB搭建企业网站,完成就送桌面收纳桶!
零基础教你用云数据库PolarDB搭建企业网站,完成就送桌面收纳桶,邀请好友完成更有机会获得​小米Watch S3、小米体重称​等诸多好礼!
零基础教你用云数据库PolarDB搭建企业网站,完成就送桌面收纳桶!
|
12天前
|
Cloud Native 关系型数据库 分布式数据库
PolarDB 分布式版 V2.0,安全可靠的集中分布式一体化数据库管理软件
阿里云PolarDB数据库管理软件(分布式版)V2.0 ,安全可靠的集中分布式一体化数据库管理软件。
|
25天前
|
存储 缓存 网络安全
南大通用GBase 8s 数据库 RHAC集群基本原理和搭建步骤
南大通用GBase 8s 数据库 RHAC集群基本原理和搭建步骤
|
2月前
|
缓存 算法 关系型数据库
Mysql(3)—数据库相关概念及工作原理
数据库是一个以某种有组织的方式存储的数据集合。它通常包括一个或多个不同的主题领域或用途的数据表。
83 5
Mysql(3)—数据库相关概念及工作原理
|
1月前
|
存储 Java 关系型数据库
在Java开发中,数据库连接是应用与数据交互的关键环节。本文通过案例分析,深入探讨Java连接池的原理与最佳实践
在Java开发中,数据库连接是应用与数据交互的关键环节。本文通过案例分析,深入探讨Java连接池的原理与最佳实践,包括连接创建、分配、复用和释放等操作,并通过电商应用实例展示了如何选择合适的连接池库(如HikariCP)和配置参数,实现高效、稳定的数据库连接管理。
64 2
|
1月前
|
关系型数据库 分布式数据库 数据库
锦鲤附体 | PolarDB数据库创新设计赛,好礼不停!
锦鲤附体 | PolarDB数据库创新设计赛,好礼不停!
|
2月前
|
SQL 关系型数据库 数据库
SQL数据库:核心原理与应用实践
随着信息技术的飞速发展,数据库管理系统已成为各类组织和企业中不可或缺的核心组件。在众多数据库管理系统中,SQL(结构化查询语言)数据库以其强大的数据管理能力和灵活性,广泛应用于各类业务场景。本文将深入探讨SQL数据库的基本原理、核心特性以及实际应用。一、SQL数据库概述SQL数据库是一种关系型数据库
106 5
|
2月前
|
关系型数据库 分布式数据库 数据库
PolarDB 开源:推动数据库技术新变革
在数字化时代,数据成为核心资产,数据库的性能和可靠性至关重要。阿里云的PolarDB作为新一代云原生数据库,凭借卓越性能和创新技术脱颖而出。其开源不仅让开发者深入了解内部架构,还促进了数据库生态共建,提升了稳定性与可靠性。PolarDB采用云原生架构,支持快速弹性扩展和高并发访问,具备强大的事务处理能力及数据一致性保证,并且与多种应用无缝兼容。开源PolarDB为国内数据库产业注入新活力,打破国外垄断,推动国产数据库崛起,降低企业成本与风险。未来,PolarDB将在生态建设中持续壮大,助力企业数字化转型。
108 2
|
2月前
|
NoSQL Java Redis
太惨痛: Redis 分布式锁 5个大坑,又大又深, 如何才能 避开 ?
Redis分布式锁在高并发场景下是重要的技术手段,但其实现过程中常遇到五大深坑:**原子性问题**、**连接耗尽问题**、**锁过期问题**、**锁失效问题**以及**锁分段问题**。这些问题不仅影响系统的稳定性和性能,还可能导致数据不一致。尼恩在实际项目中总结了这些坑,并提供了详细的解决方案,包括使用Lua脚本保证原子性、设置合理的锁过期时间和使用看门狗机制、以及通过锁分段提升性能。这些经验和技巧对面试和实际开发都有很大帮助,值得深入学习和实践。
太惨痛: Redis 分布式锁 5个大坑,又大又深, 如何才能 避开 ?
|
18天前
|
存储 NoSQL Java
使用lock4j-redis-template-spring-boot-starter实现redis分布式锁
通过使用 `lock4j-redis-template-spring-boot-starter`,我们可以轻松实现 Redis 分布式锁,从而解决分布式系统中多个实例并发访问共享资源的问题。合理配置和使用分布式锁,可以有效提高系统的稳定性和数据的一致性。希望本文对你在实际项目中使用 Redis 分布式锁有所帮助。
47 5

热门文章

最新文章

相关产品

  • 云原生数据库 PolarDB
  • 下一篇
    DataWorks