《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X冷热数据归档(1)

简介: 《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X冷热数据归档(1)

作者:石雨轩阿里云PolarDB-X开发工程师

 

冷热数据归档用于处理典型的冷热分离场景。很多业务场景下,随着时间的推移,数据热度会明显降低,被查询的概率也大幅下降。为了支持高速存取,数据库一般会使用固态硬盘,存储成本很高。

 

image.png

 

因此,对于被查询概率很低的数据,用户会定期进行归档。此前,我们通常使用delete语句删除已经过期的数据。但delete会造成锁表,也会产生大量Binlog,通常删除结束还需要进行optimized table来处理磁盘的空洞,过程危险而漫长,往往需要DBA在凌晨进行处理。

 

另外,通过delete语句将数据删除之后,冷数据库无法再被访问。但冷数据依然具有商业作用,分析处理冷数据可以帮助用户做出更好的决策。如果想继续访问,需要从存储冷数据的位置将数据导入数据库进行查询。

 

image.png

 

基于以上痛点问题,我们提供了冷数据表。冷数据表是与InnoDB表并列的一种存储引擎,可以支持多种数据源,比如在云上使用OSS,在云起实验室中使用CN的本地磁盘,也包括NFS和S3。因为是冷数据,因此不支持直接增删改,只能通过DDL进行数据的修改。

 

此外,冷数据表底层使用ORC文件,ORC无法完全兼容MySQL的类型系统。因此我们对ORC文件进行了魔改,使其能够完全兼容MySQL的类型系统,这也导致开源的ORC reader无法直接访问冷数据的ORC文件。冷数据表由CN直接进行读取解析,不会再经过DN以及InnoDB的表,因此性能有保证。

 

为了实现较强的TP能力,我们做了多层裁剪。因其基于ORC的列存结构,所以天然比InnoDB的行存有更强的AP能力。最后,冷数据表也支持任意时间点的恢复。

 

image.png

 

本次实验中会使用 loading 模式和 TTL 模式的归档表。上图第一条SQL表示将sysbench库的sbtest1表全量复制到当前库的sbtest1表。第二条SQL要求t_order必须是TTL的表,因为TTL有自动冷数据过期的能力,借助TTL模式的表,可以将过期数据自动归档到t_order_oss中,该表也称为归档表。归档表的性能可以用sbtest1进行验证。

 

TTL模式的表比loading模式的表增加了自动增量归档的能力。

 

image.png

 

归档表的TP能力可以实现较高的QPS。

 

image.png

 

上图为归档表AP查询的能力,在TPC-H 100G的测试场景下,性能优于同规格的InnoDB行存。

 

image.png

 

TTL的冷热分离能力能够自动将过期数据迁移到OSS中。

 



《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X冷热数据归档(2):

https://developer.aliyun.com/article/1228564?groupCode=polardbforpg

相关文章
|
3月前
|
SQL 关系型数据库 MySQL
开源新发布|PolarDB-X v2.4.2开源生态适配升级
PolarDB-X v2.4.2开源发布,重点完善生态能力:新增客户端驱动、开源polardbx-proxy组件,支持读写分离与高可用;强化DDL变更、扩缩容等运维能力,并兼容MySQL主备复制及MCP AI生态。
开源新发布|PolarDB-X v2.4.2开源生态适配升级
|
3月前
|
SQL 关系型数据库 MySQL
开源新发布|PolarDB-X v2.4.2开源生态适配升级
PolarDB-X v2.4.2发布,新增开源Proxy组件与客户端驱动,支持读写分离、无感高可用切换及DDL在线变更,兼容MySQL生态,提升千亿级大表运维稳定性。
780 24
开源新发布|PolarDB-X v2.4.2开源生态适配升级
|
9月前
|
关系型数据库 分布式数据库 数据库
一库多能:阿里云PolarDB三大引擎、四种输出形态,覆盖企业数据库全场景
PolarDB是阿里云自研的新一代云原生数据库,提供极致弹性、高性能和海量存储。它包含三个版本:PolarDB-M(兼容MySQL)、PolarDB-PG(兼容PostgreSQL及Oracle语法)和PolarDB-X(分布式数据库)。支持公有云、专有云、DBStack及轻量版等多种形态,满足不同场景需求。2021年,PolarDB-PG与PolarDB-X开源,内核与商业版一致,推动国产数据库生态发展,同时兼容主流国产操作系统与芯片,获得权威安全认证。
|
6月前
|
关系型数据库 分布式数据库 数据库
|
6月前
|
存储 关系型数据库 分布式数据库
喜报|阿里云PolarDB数据库(分布式版)荣获国内首台(套)产品奖项
阿里云PolarDB数据库管理软件(分布式版)荣获「2024年度国内首版次软件」称号,并跻身《2024年度浙江省首台(套)推广应用典型案例》。
|
4月前
|
Cloud Native 关系型数据库 MySQL
免费体验!高效实现自建 MySQL 数据库平滑迁移至 PolarDB-X
PolarDB-X 是阿里云推出的云原生分布式数据库,支持PB级存储扩展、高并发访问与数据强一致,助力企业实现MySQL平滑迁移。现已开放免费体验,点击即享高效、稳定的数据库升级方案。
免费体验!高效实现自建 MySQL 数据库平滑迁移至 PolarDB-X
|
7月前
|
关系型数据库 分布式数据库 数据库
再获殊荣,阿里云PolarDB数据库蝉联SIGMOD最佳论文奖
内存池化技术新突破,阿里云PolarDB蝉联SIGMOD最佳论文奖
|
4月前
|
关系型数据库 MySQL 分布式数据库
阿里云PolarDB云原生数据库收费价格:MySQL和PostgreSQL详细介绍
阿里云PolarDB兼容MySQL、PostgreSQL及Oracle语法,支持集中式与分布式架构。标准版2核4G年费1116元起,企业版最高性能达4核16G,支持HTAP与多级高可用,广泛应用于金融、政务、互联网等领域,TCO成本降低50%。
|
5月前
|
人工智能 关系型数据库 MySQL
开源PolarDB-X:单节点误删除binlog恢复
本文由邵亚鹏撰写,分享了在使用开源PolarDB-X过程中,因误删binlog导致数据库服务无法启动的问题及恢复过程。作者结合实践经验,详细介绍了在无备份情况下如何通过单节点恢复机制重启数据库,并提出了避免类似问题的几点建议,包括采用高可用部署、定期备份及升级至最新版本等。

相关产品

  • 云原生数据库 PolarDB