PolarDB-X 冷热数据归档(一)| 学习笔记

本文涉及的产品
云原生数据库 PolarDB 分布式版,标准版 2核8GB
简介: 快速学习 PolarDB-X 冷热数据归档。

开发者学堂课程【PolarDB-X开源分布式数据库进阶课程 :PolarDB-X 冷热数据归档(一)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1202/detail/18331


PolarDB-X 冷热数据归档

 

内容介绍:

一、PolarDB-X 简介

二、课程介绍

三、背景介绍

四、演示内容

五、演示

 

一、PolarDB-X 简介

首先这个是 PolarDB-X 整体的一个架构。

image.png 

二、课程介绍

image.png

这是之前我们做开源训练营的一个前景回顾

image.png

这页 PPT 是我们这个新版本所提供的一些特景。

image.png

还有我们相关的一些课程资源

 

三.背景介绍

我们这次主要介绍的是冷热数据的归纳,主要是围绕云栖实验室做一些介绍,如果想了解细节的内容可以观看群里面,八月份有一次直播会讲一些更加技术的东西。

数据时效性:随着时间推移,业务数据的热度会有明显的降低

存储成本:一般而言,为了支持高速存取,数据库的存储成本相对于 OSS 等冷存储是比较高的

归档问题:通过 delete 语句删除大规模数据,会造成锁表、产生大量 binlog、磁盘空洞等问题,是一个较危险的操作

冷数据查询:冷数据的分析处理能带来很多商业上的 insight,帮助用户作出决定

言归正传,冷热数据归纳其实是处理一些冷热分离的场景,在有些业务里面他的数据随着时间的推移热度会明显的降低,被查询的概率会小很多,但是 zhe ye 数据也是要存在数据库里的,数据库为了支持高速存取,一般会用固定硬盘它的存储成本是很高的,但是这些数据被查询的概率又很低有一些用户就会做定期的归档他们通常会使用delete语句来删除了,已经过期的数据 Delete 会造成锁表通常结束还需要来处理磁盘的空洞这个过程危险,而且漫长通常要凌晨爬起来处理这个归档的问题,用 delete 语句把数据删除之后这些冷数据,数据库就无法访问了。如果你想继续访问还得把它从存储的地方导入数据库,然后进行查询。这些冷数据其实会有一些商业上的作用,他的分析处理会帮用户做出更好的角色。

·存储引擎  

·CN直接读取冷数据表进行查询

·多种数据源  

·多级裁剪,较强的 TP 能力

·不支持直接删改,只通过 ddl 修改数据  

·列存结构,比 InnoDB 更强的 AP 能力

·底层基于 ORC 文件格式,完全兼容 MySQL 的类型系统

·任意时间点备份恢复

基于这样的痛点问题我们提供了一种冷数据表,要明确的是冷数据表,其实是和 InnoDB 并列的存储引擎。这一页PPT 大家要注意,如果考试的话题目题目都在这一页上。冷数据是可以实施多种数据源的,比如说我们在云上是用的oss,我们在实验室中开源的云起实验室中用的是 CN 的本地磁盘。如果在来源的批查地里面数据库还可以接 nfs,这个能力我们也来源出去了,包括也可以使用 s3 他并不限制使用哪种数据源,因为是冷数据,所以我们第3点不支持直接增删改他只能通过DDL修改数据,此外,我们数据表低层使用的 ORC 文件格式, 他是不能完全兼容 MySQI 的类型系统,因此我们对这个文件进行了模改,让他能够完全兼容 MySQI 的类型系统,当然这样的话那些开源的 orc 就无法访问了,我们生成了冷数据的 ORC 文件。

第四点我们的冷数据表是 cn 直接进行读取查询然后解析出来不会再介入 DN,所以它的性能是有保证的,为了能够有较强的 TP 能力,我们做了多层的裁剪,在实验中会显示 TP 能力,因为我们是基于 orc 的列存结构所以说他天然比 InnoDB  有更强的 AP 能力。最后一点作为一个数据库,他一定会有备份恢复的能力支持任意时间点的恢复。

image.png

在实验中我们会用到 Loading 模式和 TTI 模式的冷数据归档表,这两张都是在云起实验室中用到的,我们来解析一下,create table sbtest1……这一条会把这张表全量的复制,到当前库的 sbtest1,全量的复制到了一个冷数据表里,没有增量的能力,更方便我们对冷数据引擎直接测试性能,在云起实验中 TP 测试都是用的这种模式,实际上不是生产会用的模式,主要是用来测试的另外一种 TTL 模式,这张表要求 t_

image.png

必须是 TTL 的表,因为它有自动的冷数据过期能力,介入这样的表就会把过期的数据自动归档到 t_order_oss 中,这种表也称为归档表,它的性能可以用 sbtest1 验证,它TTL模式的表比 Loading 模式多了一个归档的增量这个过程是自动。

相关文章
|
2月前
|
存储 关系型数据库 Java
polardb有没有搞过pg 全量及增量备份管理的
【1月更文挑战第3天】【1月更文挑战第11篇】 polardb有没有搞过pg 全量及增量备份管理的
52 1
|
9月前
|
关系型数据库 测试技术 数据库连接
实践教程之使用PolarDB-X进行冷热数据归档
PolarDB-X 为了方便用户体验,提供了免费的实验环境,您可以在实验环境里体验 PolarDB-X 的安装部署和各种内核特性。除了免费的实验,PolarDB-X 也提供免费的视频课程,手把手教你玩转 PolarDB-X 分布式数据库。
|
10天前
|
运维 关系型数据库 分布式数据库
PolarDB产品使用问题之归档方式有什么区别
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
9天前
|
运维 关系型数据库 分布式数据库
PolarDB产品使用问题之如何将普通表转换为分区表
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
10天前
|
存储 关系型数据库 Serverless
PolarDB产品使用问题之要获取并解析Binlog,该如何操作
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
2月前
|
关系型数据库 MySQL 分布式数据库
如何备份PolarDB数据?
【5月更文挑战第13天】如何备份PolarDB数据?
38 0
|
2月前
|
JSON 关系型数据库 分布式数据库
PolarDB常见问题之PolarDB8.0.1使用冷热混合分区失败如何解决
PolarDB是阿里云推出的下一代关系型数据库,具有高性能、高可用性和弹性伸缩能力,适用于大规模数据处理场景。本汇总囊括了PolarDB使用中用户可能遭遇的一系列常见问题及解答,旨在为数据库管理员和开发者提供全面的问题指导,确保数据库平稳运行和优化使用体验。
|
10月前
|
关系型数据库 分布式数据库 数据库
PolarDB查询处理与扩容
体验云原生PolarDB的手动扩缩容特性;了解云原生PolarDB的自动扩缩容配置方法及相关参数,体验不同配置下执行TPCH的性能差异
490 0
PolarDB查询处理与扩容
|
存储 关系型数据库 对象存储
PolarDB-PG | PostgreSQL + 阿里云OSS 实现高效低价的海量数据冷热存储分离
数据库里的历史数据越来越多, 占用空间大, 备份慢, 恢复慢, 查询少但是很费钱, 迁移慢 怎么办? 冷热分离方案: - 使用PostgreSQL 或者 PolarDB-PG 存成parquet文件格式, 放到aliyun OSS存储里面. 使用duckdb_fdw对parquet文件进行查询. - duckdb 存储元数据(parquet 映射) 方案特点: - 内网oss不收取网络费用, 只收取存储费用, 非常便宜 - oss分几个档, 可以根据性能需求选择 - parquet为列存储, 一般历史数据的分析需求多,性能不错 - duckdb 支持 parquet下推过滤, 数据过滤性能不错
6660 6
PolarDB-PG | PostgreSQL + 阿里云OSS 实现高效低价的海量数据冷热存储分离
|
运维 关系型数据库 分布式数据库
《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X冷热数据归档(5)
《PolarDB-X开源分布式数据库实战进阶》——PolarDB-X冷热数据归档(5)
96 0