《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X冷热数据归档(2)

本文涉及的产品
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
简介: 《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X冷热数据归档(2)

《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X冷热数据归档(1) https://developer.aliyun.com/article/1228565?groupCode=polardbforpg



image.png

 

数据的迁移流程如下:

 

从DN抽取需过期的数据,将数据传到CN节点,并往CN的本地磁盘写入ORC文件。异步地将写好的文件从本地磁盘装载到CN中,上传至OSS。使用DN上的数据与OSS数据做校验。

 

整个流程具有原子性保证,任何一步出错都会使整个迁移任务回滚,保证不会有任何残留。另外,数据校验是基于哈希的快速校验,可以保证数据的一致性。

 

迁移过程中,无论是CN宕机还是DN宕机,都可实现断点续传,而不是整个流程从头开始。由于迁移过程有比较强的性能要求,对DN和CN的压力较大,因此会在第二步构建时进行限速。迁移过程支持多个CN并行执行,实现线性加速。冷数据也可以轻松往InnoDB迁移。

 

image.png

 

TP查询能够实现较高的QPS,主要得益于裁剪能力。比如只需要访问一个列,则只需要从OSS上拉取一个列(列裁剪)。另外,在CN上做了分片后,可以将不需要访问的分片进行裁剪,继而无需访问所有ORC文件。

 

Orc文件本身是有MinMax、BloomFilter的剪裁能力,可以借助统计信息直接进行裁剪。

 

Demo演示

 

进入云起实验室“PolarDB-X冷热数据归档”课程,在实验页面点击“创建资源”,系统会自动创建ECS。

 

image.png

 

点击页面右上角切换到web terminal图标。

 

image.png

 

分别执行启动Docker、切换到galaxykube账号下启动minikube,集群创建成功,查看信息。再根据实验步骤安装operator,部署PolarDB-X集群。

 

image.png

 

连接PolarDB-X集群。首先查看端口、PolarDB-X集群的地址以及密码,连接数据库。

 

image.png




 《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X冷热数据归档(3) https://developer.aliyun.com/article/1228562?groupCode=polardbforpg

相关实践学习
快速体验PolarDB开源数据库
本实验环境已内置PostgreSQL数据库以及PolarDB开源数据库:PolarDB PostgreSQL版和PolarDB分布式版,支持一键拉起使用,方便各位开发者学习使用。
目录
打赏
0
0
0
0
81
分享
相关文章
PolarDB开源数据库进阶课12 集群版转换为单机版
本文介绍了如何将“共享存储实例”转换为“本地存储实例”,实验环境依赖于Docker容器中的loop设备模拟共享存储。具体步骤包括准备本地目录、停库、拷贝数据、修改配置文件并启动实例。通过这些操作,可以实现从共享存储到本地存储的平滑转换。相关系列文章详细记录了PolarDB RAC一写多读集群的搭建与管理,提供了丰富的实战经验。
11 2
PolarDB开源数据库进阶课11 激活容灾(Standby)节点
本文介绍了如何激活PolarDB容灾(Standby)节点,实验环境依赖于Docker容器中用loop设备模拟共享存储。通过`pg_ctl promote`命令可以将Standby节点提升为主节点,使其能够接收读写请求。激活后,原Standby节点不能再成为PolarDB集群的Standby节点。建议删除对应的复制槽位以避免WAL文件堆积。相关操作和配置请参考系列文章及视频教程。
12 1
PolarDB开源数据库进阶课9 读写分离
本文介绍了如何配置读写分离工具pgpool-II for PolarDB,使应用程序能够透明地实现读写分离。
14 1
PolarDB开源数据库进阶课18 通过pg_bulkload适配pfs实现批量导入提速
本文介绍了如何修改 `pg_bulkload` 工具以适配 PolarDB 的 PFS(Polar File System),从而加速批量导入数据。实验环境依赖于 Docker 容器中的 loop 设备模拟共享存储。通过对 `writer_direct.c` 文件的修改,替换了一些标准文件操作接口为 PFS 对应接口,实现了对 PolarDB 15 版本的支持。测试结果显示,使用 `pg_bulkload` 导入 1000 万条数据的速度是 COPY 命令的三倍多。此外,文章还提供了详细的步骤和代码示例,帮助读者理解和实践这一过程。
8 0
PolarDB开源数据库进阶课17 集成数据湖功能
本文介绍了如何在PolarDB数据库中接入pg_duckdb、pg_mooncake插件以支持数据湖功能, 可以读写对象存储的远程数据, 支持csv, parquet等格式, 支持delta等框架, 并显著提升OLAP性能。
10 0
PolarDB开源数据库进阶课16 接入PostGIS全功能及应用举例
本文介绍了如何在PolarDB数据库中接入PostGIS插件全功能,实现地理空间数据处理。此外,文章还提供了使用PostGIS生成泰森多边形(Voronoi diagram)的具体示例,帮助用户理解其应用场景及操作方法。
10 0
PolarDB开源数据库进阶课15 集成DeepSeek等大模型
本文介绍了如何在PolarDB数据库中接入私有化大模型服务,以实现多种应用场景。实验环境依赖于Docker容器中的loop设备模拟共享存储,具体搭建方法可参考相关系列文章。文中详细描述了部署ollama服务、编译并安装http和openai插件的过程,并通过示例展示了如何使用这些插件调用大模型API进行文本分析和情感分类等任务。此外,还探讨了如何设计表结构及触发器函数自动处理客户反馈数据,以及生成满足需求的SQL查询语句。最后对比了不同模型的回答效果,展示了deepseek-r1模型的优势。
14 0
PolarDB开源数据库进阶课14 纯享单机版
PolarDB不仅支持基于“共享存储+多计算节点”的集群版,还提供类似开源PostgreSQL的单机版。单机版部署简单,适合大多数应用场景,并可直接使用PostgreSQL生态插件。通过Docker容器、Git克隆代码、编译软件等步骤,即可完成PolarDB单机版的安装与配置。具体操作包括启动容器、进入容器、克隆代码、编译软件、初始化实例、配置参数及启动数据库。此外,还有多个相关教程和视频链接供参考,帮助用户更好地理解和使用PolarDB单机版。
11 0
PolarDB开源数据库进阶课13 单机版转换为集群版
本文介绍如何将“本地存储实例”转换为“共享存储实例”,依赖于先前搭建的实验环境。主要步骤包括:准备PFS二进制文件、格式化共享盘为pfs文件系统、启动pfsd服务、停库并拷贝数据到pfs内、修改配置文件,最后启动实例。通过这些操作,成功实现了从本地存储到共享存储的转换,并验证了新实例的功能。相关系列文章和视频链接提供了更多背景信息和技术细节。
12 0
PolarDB开源数据库进阶课10 计算节点全毁, 灾难恢复
本文介绍了在PolarDB RAC一写多读集群中,当所有计算节点(主机)故障仅剩共享存储时的修复方法。实验基于Docker容器和loop设备模拟共享存储环境。通过重建计算节点、恢复PolarDB实例及配置相关参数,最终成功恢复RW和RO节点的功能,确保数据完整性和集群正常运行。视频回放可在B站和YouTube上查看。
10 0

相关产品

  • 云原生数据库 PolarDB
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等