《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X冷热数据归档(1)

本文涉及的产品
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
简介: 《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X冷热数据归档(1)

作者:石雨轩阿里云PolarDB-X开发工程师

 

冷热数据归档用于处理典型的冷热分离场景。很多业务场景下,随着时间的推移,数据热度会明显降低,被查询的概率也大幅下降。为了支持高速存取,数据库一般会使用固态硬盘,存储成本很高。

 

image.png

 

因此,对于被查询概率很低的数据,用户会定期进行归档。此前,我们通常使用delete语句删除已经过期的数据。但delete会造成锁表,也会产生大量Binlog,通常删除结束还需要进行optimized table来处理磁盘的空洞,过程危险而漫长,往往需要DBA在凌晨进行处理。

 

另外,通过delete语句将数据删除之后,冷数据库无法再被访问。但冷数据依然具有商业作用,分析处理冷数据可以帮助用户做出更好的决策。如果想继续访问,需要从存储冷数据的位置将数据导入数据库进行查询。

 

image.png

 

基于以上痛点问题,我们提供了冷数据表。冷数据表是与InnoDB表并列的一种存储引擎,可以支持多种数据源,比如在云上使用OSS,在云起实验室中使用CN的本地磁盘,也包括NFS和S3。因为是冷数据,因此不支持直接增删改,只能通过DDL进行数据的修改。

 

此外,冷数据表底层使用ORC文件,ORC无法完全兼容MySQL的类型系统。因此我们对ORC文件进行了魔改,使其能够完全兼容MySQL的类型系统,这也导致开源的ORC reader无法直接访问冷数据的ORC文件。冷数据表由CN直接进行读取解析,不会再经过DN以及InnoDB的表,因此性能有保证。

 

为了实现较强的TP能力,我们做了多层裁剪。因其基于ORC的列存结构,所以天然比InnoDB的行存有更强的AP能力。最后,冷数据表也支持任意时间点的恢复。

 

image.png

 

本次实验中会使用 loading 模式和 TTL 模式的归档表。上图第一条SQL表示将sysbench库的sbtest1表全量复制到当前库的sbtest1表。第二条SQL要求t_order必须是TTL的表,因为TTL有自动冷数据过期的能力,借助TTL模式的表,可以将过期数据自动归档到t_order_oss中,该表也称为归档表。归档表的性能可以用sbtest1进行验证。

 

TTL模式的表比loading模式的表增加了自动增量归档的能力。

 

image.png

 

归档表的TP能力可以实现较高的QPS。

 

image.png

 

上图为归档表AP查询的能力,在TPC-H 100G的测试场景下,性能优于同规格的InnoDB行存。

 

image.png

 

TTL的冷热分离能力能够自动将过期数据迁移到OSS中。

 



《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X冷热数据归档(2):

https://developer.aliyun.com/article/1228564?groupCode=polardbforpg

相关实践学习
快速体验PolarDB开源数据库
本实验环境已内置PostgreSQL数据库以及PolarDB开源数据库:PolarDB PostgreSQL版和PolarDB分布式版,支持一键拉起使用,方便各位开发者学习使用。
相关文章
|
1月前
|
关系型数据库 MySQL 分布式数据库
零基础教你用云数据库PolarDB搭建企业网站,完成就送桌面收纳桶!
零基础教你用云数据库PolarDB搭建企业网站,完成就送桌面收纳桶,邀请好友完成更有机会获得​小米Watch S3、小米体重称​等诸多好礼!
零基础教你用云数据库PolarDB搭建企业网站,完成就送桌面收纳桶!
|
2月前
|
存储 SQL 安全
应用案例|开源 PolarDB-X 在互联网安全场景的应用实践
中盾集团采用PolarDB-X云原生分布式数据库开源版本,有效解决了大数据量处理、复杂查询以及历史数据维护等难题,实现了业务的高效扩展与优化。
|
3月前
|
关系型数据库 MySQL 分布式数据库
PolarDB 与传统数据库的性能对比分析
【8月更文第27天】随着云计算技术的发展,越来越多的企业开始将数据管理和存储迁移到云端。阿里云的 PolarDB 作为一款兼容 MySQL 和 PostgreSQL 的关系型数据库服务,提供了高性能、高可用和弹性伸缩的能力。本文将从不同角度对比 PolarDB 与本地部署的传统数据库(如 MySQL、PostgreSQL)在性能上的差异。
225 1
|
13天前
|
关系型数据库 分布式数据库 数据库
锦鲤附体 | PolarDB数据库创新设计赛,好礼不停!
锦鲤附体 | PolarDB数据库创新设计赛,好礼不停!
|
1月前
|
关系型数据库 分布式数据库 数据库
PolarDB 开源:推动数据库技术新变革
在数字化时代,数据成为核心资产,数据库的性能和可靠性至关重要。阿里云的PolarDB作为新一代云原生数据库,凭借卓越性能和创新技术脱颖而出。其开源不仅让开发者深入了解内部架构,还促进了数据库生态共建,提升了稳定性与可靠性。PolarDB采用云原生架构,支持快速弹性扩展和高并发访问,具备强大的事务处理能力及数据一致性保证,并且与多种应用无缝兼容。开源PolarDB为国内数据库产业注入新活力,打破国外垄断,推动国产数据库崛起,降低企业成本与风险。未来,PolarDB将在生态建设中持续壮大,助力企业数字化转型。
84 2
|
2月前
|
关系型数据库 分布式数据库 数据库
2024年全国大学生计算机系统能力大赛PolarDB数据库创新设计赛(天池杯)等你来战!
2024年全国大学生计算机系统能力大赛PolarDB数据库创新设计赛(天池杯)等你来战!
2024年全国大学生计算机系统能力大赛PolarDB数据库创新设计赛(天池杯)等你来战!
|
2月前
|
关系型数据库 分布式数据库 数据库
来!跟通义灵码一起参加PolarDB 数据库创新设计赛,突破传统,探索人机协作
无论你是数据库新手,还是技术大咖,通义灵码邀请你参加2024 年全国大学生计算机系统能力大赛 PolarDB 数据库创新设计赛(天池杯),新参赛模式启动,挑战极限!
109 11
|
2月前
|
存储 关系型数据库 分布式数据库
揭秘PolarDB:中国云原生数据库的超级英雄,如何颠覆传统数据存储?
在数字化时代,数据成为企业的核心资产,而云原生数据库则是推动企业转型的关键。PolarDB凭借其先进的存储计算分离架构,在性能、可靠性和易用性方面脱颖而出,成为国内领先的选择。它支持多种数据库引擎,提供多副本存储机制,并采用按量付费模式,有效降低管理和成本压力,助力企业实现高效、可靠的数字化转型。
67 1
|
2月前
|
关系型数据库 分布式数据库 数据库
报名啦|PolarDB数据库创新设计赛(天池杯)等你来战
2024年全国大学生计算机系统能力大赛PolarDB数据库创新设计赛(天池杯)已启动报名,面向全国高校全日制本专科学生。大赛由多家机构联合主办,旨在培养数据库领域人才,促进产学研合作,设有丰厚奖金与奖项。报名截至10月7日,决赛将于12月13日举行。更多详情及报名请访问大赛官网。
|
2月前
|
关系型数据库 分布式数据库 数据库
报名啦|PolarDB数据库创新设计赛(天池杯)等你来战
2024年全国大学生计算机系统能力大赛PolarDB数据库创新设计赛(天池杯)已启动报名,面向全国高校全日制本专科学生。大赛由多家机构联合主办,旨在培养数据库领域人才,促进产学研合作,设有丰厚奖金与奖项。报名截至10月7日,决赛将于12月13日举行。更多详情及报名请访问大赛官网。

热门文章

最新文章

相关产品

  • 云原生数据库 PolarDB