《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X冷热数据归档(1)

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
简介: 《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X冷热数据归档(1)

作者:石雨轩阿里云PolarDB-X开发工程师

 

冷热数据归档用于处理典型的冷热分离场景。很多业务场景下,随着时间的推移,数据热度会明显降低,被查询的概率也大幅下降。为了支持高速存取,数据库一般会使用固态硬盘,存储成本很高。

 

image.png

 

因此,对于被查询概率很低的数据,用户会定期进行归档。此前,我们通常使用delete语句删除已经过期的数据。但delete会造成锁表,也会产生大量Binlog,通常删除结束还需要进行optimized table来处理磁盘的空洞,过程危险而漫长,往往需要DBA在凌晨进行处理。

 

另外,通过delete语句将数据删除之后,冷数据库无法再被访问。但冷数据依然具有商业作用,分析处理冷数据可以帮助用户做出更好的决策。如果想继续访问,需要从存储冷数据的位置将数据导入数据库进行查询。

 

image.png

 

基于以上痛点问题,我们提供了冷数据表。冷数据表是与InnoDB表并列的一种存储引擎,可以支持多种数据源,比如在云上使用OSS,在云起实验室中使用CN的本地磁盘,也包括NFS和S3。因为是冷数据,因此不支持直接增删改,只能通过DDL进行数据的修改。

 

此外,冷数据表底层使用ORC文件,ORC无法完全兼容MySQL的类型系统。因此我们对ORC文件进行了魔改,使其能够完全兼容MySQL的类型系统,这也导致开源的ORC reader无法直接访问冷数据的ORC文件。冷数据表由CN直接进行读取解析,不会再经过DN以及InnoDB的表,因此性能有保证。

 

为了实现较强的TP能力,我们做了多层裁剪。因其基于ORC的列存结构,所以天然比InnoDB的行存有更强的AP能力。最后,冷数据表也支持任意时间点的恢复。

 

image.png

 

本次实验中会使用 loading 模式和 TTL 模式的归档表。上图第一条SQL表示将sysbench库的sbtest1表全量复制到当前库的sbtest1表。第二条SQL要求t_order必须是TTL的表,因为TTL有自动冷数据过期的能力,借助TTL模式的表,可以将过期数据自动归档到t_order_oss中,该表也称为归档表。归档表的性能可以用sbtest1进行验证。

 

TTL模式的表比loading模式的表增加了自动增量归档的能力。

 

image.png

 

归档表的TP能力可以实现较高的QPS。

 

image.png

 

上图为归档表AP查询的能力,在TPC-H 100G的测试场景下,性能优于同规格的InnoDB行存。

 

image.png

 

TTL的冷热分离能力能够自动将过期数据迁移到OSS中。

 



《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X冷热数据归档(2):

https://developer.aliyun.com/article/1228564?groupCode=polardbforpg

相关实践学习
Polardb-x 弹性伸缩实验
本实验主要介绍如何对PolarDB-X进行手动收缩扩容,了解PolarDB-X 中各个节点的含义,以及如何对不同配置的PolarDB-x 进行压测。
相关文章
|
22天前
|
关系型数据库 分布式数据库 PolarDB
电子书阅读分享《PolarDB开发者大会:分布式的PolarDB》
电子书阅读分享《PolarDB开发者大会:分布式的PolarDB》
22 6
|
26天前
|
存储 关系型数据库 分布式数据库
选300平米别墅还是90平米小平层?一文带你读懂PolarDB分布式版集分一体化
1月17日,在阿里云PolarDB开发者大会上,阿里云PolarDB分布式产品部负责人黄贵发表了《分布式的PolarDB:分布式的能力,一体化的体验》主题演讲。
|
27天前
|
关系型数据库 分布式数据库 数据库
阿里云瑶池数据库训练营权益:PolarDB开发者大会主题资料开放下载!
阿里云瑶池数据库训练营权益:PolarDB开发者大会主题资料开放下载!
|
30天前
|
存储 DataWorks 监控
DataWorks,一个 polar db 有上万个数据库,解决方案
DataWorks,一个 polar db 有上万个数据库,解决方案
|
1月前
|
存储 关系型数据库 分布式数据库
选300平米别墅还是90平米小平层?一文带你读懂PolarDB分布式版集分一体化
PolarDB分布式版内核上具备了集中式分布式一体化的技术融合,支持集中式和分布式两种形态无缝切换。
选300平米别墅还是90平米小平层?一文带你读懂PolarDB分布式版集分一体化
|
3天前
|
关系型数据库 MySQL 分布式数据库
PolarDB for MySQL数据库外网连接解析失败的原因
【2月更文挑战第5天】PolarDB for MySQL数据库外网连接解析失败的原因
52 8
|
5天前
|
Cloud Native 关系型数据库 分布式数据库
推荐你使用数据库排行榜第一的PolarDB
数据库大家都使用的,才是最好的,有足够多的案例和样本。
29469 15
|
5天前
|
SQL 关系型数据库 分布式数据库
|
19天前
|
关系型数据库 分布式数据库 PolarDB
电子书阅读分享《PolarDB开发者大会:分布式的PolarDB》
电子书阅读分享《PolarDB开发者大会:分布式的PolarDB》
16 4
|
21天前
|
关系型数据库 分布式数据库 PolarDB
电子书阅读分享《PolarDB开发者大会:分布式的PolarDB》
电子书阅读分享《PolarDB开发者大会:分布式的PolarDB》

热门文章

最新文章

相关产品

  • 云原生数据库 PolarDB