技术干货|云原生数仓AnalyticDB MySQL实时存储引擎演进之路

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: AnalyticDB MySQL湖仓版已正式开放公测

背景


AnalyticDB MySQL作为一款实时数仓产品,在传统数仓的能力基础上为了支持低延迟的写入、更新场景,架构上设计了实时存储引擎;用户的写入、更新会以append_only的方式写入实时存储引擎,经过compact之后构建索引以支持复杂的计算场景。

1.JPG

从架构上看,很庆幸SAP HANA、SingleStore有着类似的设计。


在线上服务大客户的同时,实时存储引擎也遇到了一些设计、性能上的瓶颈。

  • 在一些大宽表场景下,单行的更新带来了严重的写放大问题;
  • 实时存储引擎内存高频换入换出,cache miss高的同时,大量的压缩、解压缩带来cpu瓶颈。

2.JPG

针对以上的几类问题,我们设计了新一代的实时存储引擎:

  1. 存储格式上,在确定的IO单位上设计行列混存格式,使得单行的IO大小可控;
  2. 学习学术界、工业界对Memory-centric架构的研究,在内存控制上实现了基于Anti-Caching的BufferPool。


存储格式


AnalyticDB MySQL实时存储引擎在最初的设计上仍然是一个列存实现,在宽表的更新(游戏业务中留存率计算、零售业务中订单统计等)场景下,IO放大导致的latency问题尤为明显。

3.PNG

RowGroup作为行列混存的一个典型设计,在列存的基础上以行数对齐的方式使得一个group内逻辑行号对齐;这样的设计在宽表场景下出现了比较严重的弊端,当访问一行数据时,磁盘的IO单位变得不可控(列数*block_size)。

4.PNG

针对IO的优化,我们在固定大小的Page上以PAX layout组织数据格式,page头部维护列数、当前记录数以及空闲大小;其次记录每个列起始offset和行粒度的bitmap信息。


每个列会在各个定长minipage中维护(变长的组织在下个小节介绍),同时每个F-minipage的分配上保证cacheline对齐。


基于PAX layout的设计,能够确保每个page的刷盘落到磁盘上都是确定的IO单位;同时同一个列的数据仍然保持在一个minipage上的连续布局,在顺序扫描的场景上仍然能够充分利用cache的能力。


VarlenEntry的设计

5.PNG

针对变长字段的存储,AnalyticDB MySQL用16-byte来存储和表示;前4个字节存储字符串长度,对于超过12个字节的字段会记录4个字节的prefix之后,记录指向V-minipage中对应记录的起始地址。


内存控制


在内存控制的演进上,AnalyticDB MySQL实时存储引擎从最初的LRU-based Cache逐步走向以内存为中心的架构。


与传统数据库的Caching机制不同,AnalyticDB MySQL基于Anti-Caching的设计,将内存作为主存,仅将冷数据淘汰到磁盘上,磁盘的角色更像一个“backup”。学术界对于Anti-Caching的研究也是层出不穷,从H-Store孵化出的商业数据库VoltDB到微软的Siberia in Hekaton都提出了各自的解决方案。


Anti-Caching

6.JPG

Caching和Anti-Caching设计上都是为了解决内存和磁盘速度和容量上的gap。Caching为了加速数据的访问速度缓存了磁盘数据到内存中;Anti-Caching则是为了容量将内存数据“anti-cache”到磁盘上。


Anti-Caching的实现上可以分为以下三类:

  • User-space 在User-space上实现Anti-Caching目前是比较广泛的,同时能够基于应用语义实现Ad-hoc的优化;另一方面从User-space实现Anti-Caching需要绕过OS,带来了一定的overhead。最早提出Anti-Caching的H-Store,是面向高性能的行存内存数据库,它去掉了传统面向磁盘数据库里的Lock、Buffer Management这类比较重的组件,同时基于LRU来做冷数据的Anti-Caching。H-Store维护了tuple级别的LRU访问,同时淘汰粒度上为了减少overhead,将tuple聚合到block级别。为了维护tuple的状态(磁盘还是内存)H-Store用了一张内存的evict table来存储这些meta信息,整体上来看,为了维护LRU对性能不可避免地带来了一定程度上的overhead。Siberia项目也在Hekaton中采用了Anti-Caching的技术,与H-Store维护LRU不同的是,Siberia采用离线分析logging的方式来为tuple的冷热做分类;同时维护了bloom filter来筛选需要访问磁盘的tuple。Siberia的实现在性能上避免了LRU的开销,但是实时性存在一定欠缺,对于内存并不能做到完全精准的控制上界。
  • Kernel-space Virtual memory management(VMM)是大部分OS都支持的功能,可以作为Anti-Caching的一种简单实现手段,但是缺乏了应用层面的语义,Kernel-space的淘汰可能并不能很准确。大体上有两种实现OS Paging的方式,一个是提前配置好swap分区,OS自动做Paging的换入换出应用程序不需要感知。另一种方式是使用memory-mapped文件,这个在MongoDB、MonetDB中广泛使用。
  • Hybrid of user- and kernel-space User-space的方式能够使用应用层的语义优化Ad-hoc的性能;Kernel-space能够针对I/O进行调度同时充分利用硬件特性。AnalyticDB MySQL采用了将user-和kernel-space结合到一起的实现方式。

7.JPG

AnalyticDB MySQL的BufferManager在文件系统之上,通过mmap维护了一个buffer pool,不同大小的page都可以加载到buffer manager中。当一个page被淘汰出buffer manager时,首先保证该page被写回磁盘成功,随后通过madvise中的MADV_DONTNEED标记来通知内核立刻重用相关的物理内存。


Swizzling Pointer

当page被序列化到磁盘后,系统需要通过逻辑ID (PID)来再次访问对应的page。业界通常的设计是用全局的hashtable来维护PID的映射关系,老版本的AnalyticDB MySQL也不例外。

8.PNG

然而这类设计在数据规模较大时,存在明显的性能瓶颈;同时早在08年Harizopoulos在SIGMOD发表的paper中就指出TPC-C场景下BufferManager在指令集层面的开销就占用了34.6%。

9.PNG

为了避免Hash的开销,AnalyticDB MySQL采用了Swizzling Pointer的实现方案,以64bit来存储page的唯一标识;当page在内存中时,头部第一个bit标记为0,其余bit用来表征page的物理地址;当page在磁盘中时,头部第一bit标记为1,后6个bit记录page的size class来计算具体的page大小,剩余的57个bit记录page的PID。


Swizzling Pointer技术上本身带有一定的去中心化属性,避免了全局Hash的开销;同时在新版本的实时存储引擎中,page写盘没有采用传统的lz4、zstd等压缩算法,使得在cpu密集的场景下,性能有大幅的提升。


实时存储引擎性能对比


针对点查以及更新场景,我们选择YCSB测试集来做性能的测试对比。

10.PNG

11.PNG

相比列存版本的实现,新版本的实时引擎存储格式的优化上对IO的控制有着明显的优势;同时内存控制的优化上大大减少了Cache Miss带来的CPU开销


AnalyticDB MySQL湖仓版已正式开放公测,对于低成本离线处理ETL有需求,同时又需要使用高性能在线分析支撑BI报表/交互式查询/APP应用的用户,欢迎点击「阅读原文」进行公测申请


引用:

[1] OLTP Through the Looking Glass, and What We Found There

[2] Weaving Relations for Cache Performance

[3] In-Memory Performance for Big Data

[4] Cloud-Native Transactions and Analytics in SingleStore


 / End /  

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
26天前
|
存储 SQL 关系型数据库
MySQL存储引擎
本文介绍了数据库优化的多个方面,包括选择合适的存储引擎、字段定义原则、避免使用外键和触发器、大文件存储策略、表拆分及字段冗余处理等。强调了从业务层面进行优化的重要性,如通过活动设计减少外部接口调用,以及在高并发场景下的流量控制与预处理措施。文章还提供了具体的SQL优化技巧和表结构优化建议,旨在提高数据库性能和可维护性。
MySQL存储引擎
|
11天前
|
存储 缓存 关系型数据库
【赵渝强老师】MySQL的MyISAM存储引擎
在MySQL5.1版本之前,默认存储引擎为MyISAM。MyISAM管理非事务表,提供高速存储和检索,支持全文搜索。其特点包括不支持事务、表级锁定、读写互阻、仅缓存索引等。适用于读多、写少且对一致性要求不高的场景。示例代码展示了MyISAM存储引擎的基本操作。
|
11天前
|
存储 Oracle 关系型数据库
【赵渝强老师】MySQL的InnoDB存储引擎
InnoDB是MySQL的默认存储引擎,广泛应用于互联网公司。它支持事务、行级锁、外键和高效处理大量数据。InnoDB的主要特性包括解决不可重复读和幻读问题、高并发度、B+树索引等。其存储结构分为逻辑和物理两部分,内存结构类似Oracle的SGA和PGA,线程结构包括主线程、I/O线程和其他辅助线程。
【赵渝强老师】MySQL的InnoDB存储引擎
|
11天前
|
存储 关系型数据库 MySQL
【赵渝强老师】MySQL的Memory存储引擎
MySQL 的存储引擎层负责数据的存储和提取,支持多种存储引擎,如 InnoDB、MyISAM 和 Memory。InnoDB 是最常用的存储引擎,从 MySQL 5.5.5 版本起成为默认引擎。Memory 存储引擎的数据仅存在于内存中,重启后数据会丢失。示例中创建了使用 Memory 引擎的 test3 表,并展示了数据在重启后消失的过程。
|
1月前
|
存储 SQL 缓存
MySQL存储引擎如何完成一条更新语句的执行!
MySQL存储引擎如何完成一条更新语句的执行!
MySQL存储引擎如何完成一条更新语句的执行!
|
2月前
|
存储 缓存 关系型数据库
MySQL高级篇——存储引擎和索引
MyISAM:不支持外键和事务,表锁不适合高并发,只缓存索引,内存要求低,查询快MyISAM提供了大量的特性,包括全文索引、压缩、空间函数(GIS)等,但MyISAM不支持事务、行级锁、外键,有一个毫无疑问的缺陷就是崩溃后无法安全恢复。5.5之前默认的存储引擎优势是访问的速度快,对事务完整性没有要求或者以SELECT、INSERT为主的应用针对数据统计有额外的常数存储。故而 count(*) 的查询效率很高表名.frm 存储表结构;表名.MYD 存储数据 (MYData);
MySQL高级篇——存储引擎和索引
|
4月前
|
数据采集 运维 Cloud Native
Flink+Paimon在阿里云大数据云原生运维数仓的实践
构建实时云原生运维数仓以提升大数据集群的运维能力,采用 Flink+Paimon 方案,解决资源审计、拓扑及趋势分析需求。
18511 54
Flink+Paimon在阿里云大数据云原生运维数仓的实践
|
3月前
|
关系型数据库 OLAP 分布式数据库
揭秘Polardb与OceanBase:从OLTP到OLAP,你的业务选对数据库了吗?热点技术对比,激发你的选择好奇心!
【8月更文挑战第22天】在数据库领域,阿里巴巴的Polardb与OceanBase各具特色。Polardb采用共享存储架构,分离计算与存储,适配高并发OLTP场景,如电商交易;OceanBase利用灵活的分布式架构,优化数据分布与处理,擅长OLAP分析及大规模数据管理。选择时需考量业务特性——Polardb适合事务密集型应用,而OceanBase则为数据分析提供强大支持。
973 2
|
3月前
|
存储 关系型数据库 MySQL
MySQL 中的事务存储引擎深入解析
【8月更文挑战第31天】
54 0
|
3月前
|
存储 运维 Cloud Native
"Flink+Paimon:阿里云大数据云原生运维数仓的创新实践,引领实时数据处理新纪元"
【8月更文挑战第2天】Flink+Paimon在阿里云大数据云原生运维数仓的实践
278 3

热门文章

最新文章

相关产品

  • 云原生数据仓库AnalyticDB MySQL版
  • 云原生数据仓库 AnalyticDB PostgreSQL版