Tair持久存储系列技术解读

本文涉及的产品
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
简介: 阿里云数据库重磅发布自研Tair持久存储系列的产品打破了传统Redis中的数据只能在易失性存储上进行读写的刻板印象,针对客户不同业务阶段的数据存储要求与服务成本考量,全新实现了持久性更强、成本更低的KV数据库。

Redis做为当今主流的内存数据库支持许多丰富的数据结构,比如哈希表、集合,还有lua脚本、事务、消息订阅等等高级特性,同时使用内存做为主要的存储介质,支持高速访问。

但是由于其数据全部存储在内存,成本较高,而且对于海量数据存储的支持也存在一些痛点,比如在AOFREWRITE和生成RDB快照时会有较高的latency spike,大数据量下全量同步耗时较长、失败率较高。并且数据可靠性稍弱,RDB和AOF不能保证数据不丢失。

为了解决上述问题,拓宽Redis的应用场景,我们结合新技术新硬件推出了Tair持久存储系列产品:容量存储型和持久内存型,支持大容量存储和更高的数据可靠性。

>>发布会传送门

点击了解产品详情

容量存储型
9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

使用磁盘存储就是其中的解决方案之一,利用磁盘可以降低成本并且提供海量存储。但是在磁盘上实现redis也会有一些挑战:

1.首先redis的数据结构都是基于内存实现,内存可以直接寻址,而磁盘是个块设备,需要在磁盘上构建存储引擎来支持redis数据结构访问。

2.另外磁盘和内存有较大的性能差距,原生redis单线程的架构无法满足吞吐需求,需要从架构设计上提升访问性能。

应对这些挑战,我们基于rocksdb进行了改造,提供了高性能的存储引擎TairDB,并实现了redis数据结构向简单kv的编码映射,使redis数据能够存储在磁盘上;采用多线程的架构来提升访问磁盘的性能;同时使用阿里云ESSD高效云盘为存储底座,利用云盘快照进行备份和全量同步,避免fork带来的问题并提高全量同步效率。

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

redis有五种基本数据类型,其中string可以直接映射到rocksdb的kv,但是其他一些复杂的数据结构hash、list、set、zset需要通过一定格式的编码把redis的数据结构映射到rocksd的kv上。

我们把redis数据结构拆分为meta和data两类,进行不同的编码,通过meta可以去找到其对应的data,也即二级索引。

以hash为例,执行hset myhash myfield myvalue之后,hash表的名字myhash就会在meta中生成一份kv,其中key就是myhash,value会标志它的属性为hash表;myfield和myvalue会记录在data中,再以key+类型+filed就可以索引到hash表的所有内容。

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

为了实现多线程架构,首先需要解决key冲突的问题,这里我们实现了key级别的锁,这样可以大大降低锁冲突,提高并发度。命令执行过程中多个线程首先获取key锁,然后按命令的逻辑执行,通过预先设计好的编码规则存取数据。最后再把结果以事务的方式提交给底层存储引擎。每个命令的执行都是要在事务提交之后才会返回结果,这样每一条命令都是持久化的,大大提升了数据可靠性。

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

关于主备复制,全量复制使用云盘快照提高效率。增量复制采用类似MySQL binlog的方式,事务提交之后同时也会写入binlog,然后会有sender把binlog传输给备库,binlog传输到备库上时会首先保存为relaylog作为中继,然后通过relaylog再回放应用,这样有两点好处:

1.支持semisync,只要relaylog落盘就可以认为事务在备库也提交完成,不用等待relaylog应用,这样既可以提升增量同步的效率,同时提供了更强的主备一致性保证。

2.支持并发回放,在relaylog中记录并发度的元信息,不同的key就可以进行并发回放提高效率,同时相同的key仍然按序回放,保证主备一致性,不会造成数据错乱。

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

上图为不同类型场景和实例规格下的性能测试结果,测试命令为时间复杂度O(1)的GET/SET,综合性能中位数在开源版70%。

在数据小于内存的情况下大部分数据都会缓存在操作系统的page cache中,整体性能会优于数据大于内存的情况。规格越高的实例线程越多并发度也就越高,性能也相对越好。另外不同于内存中的GET/SET,磁盘上写入数据需要有read modify write的过程,也即需要先读取元数据才能进行修改,所以对于GET/SET写性能要弱于读性能。

持久内存型

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

傲腾持久内存是Intel推出的一款非易失性内存产品,在提供接近内存延时能力的同时保持持久化的能力, 理想情况下对于Redis场景来说是非常好的,因为数据写入到持久内存中已经持久化,那么就不需要额外的日志和Checkpoint用来保证持久化的特性,同时傲腾持久内存在延迟上也比较接近内存优于传统SSD,成本上对比内存也更加的便宜。

Redis基于傲腾持久内存能达到高性能的同时拥有较高的持久化能力,但是实际在工程实现会碰到非常大的挑战,包括:

1.需要使用持久化内存的分配器来代替原有的内存分配器,分配器的元数据信息需要持久化,否则在恢复的时候会造成内存的泄露或者不一致。
2.原本String,Set,Hash这些数据结构和索引在异常的时候全部失效在恢复的时候重建,而现在这些数据都是持久化的,如何支持设计持久化的数据结构是目前工业界和理论界主要的研究方向之一
3.索引和数据的一致性,数据的完整性,这些都会在下一张NVM的挑战中做更详细的阐释
4.持久内存在延时还是比内存更高,如何做好冷热分离,让系统拥有更高的性能。
5.如何拥有高性能的同时兼备强大的持久化能力。

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

持久内存的使用分为两大类Memory Mode和 AppDirecrt Mode, memory mode无需用户改造但是没有持久化内里, 使用App Direct mode之后对比传统SSD从block寻址转为字节寻址,同时接口也从文件write/read转为内存的load和store。

数据写入内存的过程可能会停留在CPU L1,L2cache,需要调用类似CLWB和CLFLUSHOPT这样的指令来刷到内存系统中,由于CPU只能保证8个字节的原子写入,那么对于一个16字节的写很有可能在写完第一个8字节的时候crash,后半部分没有写入成功这个就是所谓的partial writes, 上层应用在使用持久内存的时候需要额外的实现来保障数据持久问题。

下面的例子是一个双向链表,传统内存crash之后所有的数据丢失,而持久内存则保留了crash的状态,因此会出现B的Next指针指向了C而C的Prev指针缺没有指向B,这个时候的双向链表是出于异常的状态。 从链表衍生开来内存分配器中的管理结构也存在这个问题,会出现内存泄露等情况。

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

由于持久化的挑战,目前主流使用持久内存的方式都是当做Memory或者使用AppDirect但是不支持持久化,阿里云Tair持久内存版的是基于傲腾持久内存的自研引擎,解决了持久化编程中遇到的各种挑战,撘配阿里云官方提供的Linux操作系统镜像Aliyun Linux,Aliyun弹性计算服务首次(全球首家)在神龙裸金属服务器上引入傲腾持久内存,深度优化完善支持,为客户提供安全、稳定、高性能的体验。

阿里云持久内存版Tair的每一条记录都确保写入AEP并且持久化才返回,极大的提升数据的可靠性, 同时在读取路径上使用Dram缓存如索引等热点数据结构和元数信息,来加速数据访问的存取。

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

在神龙裸金属机器上,我们使用相同配置进行了Tair持久内存版和Redis6.0的性能对比, 整体上吞吐为社区内存版本的90%, 延时上由于没有AofRewrite的干扰,P95的延时更加的稳定。

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
存储 NoSQL Redis
《阿里云Redis企业版Tair持久存储系列技术解读》电子版地址
阿里云Redis企业版Tair持久存储系列技术解读
105 0
《阿里云Redis企业版Tair持久存储系列技术解读》电子版地址
|
存储 NoSQL Redis
《阿里云Redis企业版Tair持久存储系列产品详解》电子版地址
阿里云Redis企业版Tair持久存储系列产品详解
93 0
《阿里云Redis企业版Tair持久存储系列产品详解》电子版地址
|
存储 缓存 运维
阿里云自研云原生内存数据库Tair持久存储系列重磅发布!
2020年10月28日,阿里云正式发布云原生内存数据库Tair企业级Redis服务。该系列包含两种产品形态:持久内存型和容量存储型。该系列产品是Tair系列继性能增强型和混合存储型后又一力作,其兼容原生Redis的数据结构和接口,并具备更大容量规格、抖动更低且命令级数据持久化的能力。该自研产品打破了传统Redis中的数据只能在易失性存储上进行读写的刻板印象,针对客户不同业务阶段的数据存储要求与服务成本考量,全新实现了持久性更强、成本更低的KV数据库。
1969 0
阿里云自研云原生内存数据库Tair持久存储系列重磅发布!
|
存储 缓存 运维
阿里云数据库Redis正式上线Tair持久存储系列 提供大规格命令级持久化能力的云上Redis服务
该自研产品打破了传统Redis中的数据只能在易失性存储上进行读写的刻板印象,针对客户不同业务阶段的数据存储要求与服务成本考量,全新实现了持久性更强、成本更低的KV数据库。
24965 0
阿里云数据库Redis正式上线Tair持久存储系列 提供大规格命令级持久化能力的云上Redis服务
|
存储 NoSQL Cloud Native
阿里云自研云原生Tair持久存储系列重磅发布
阿里云数据库即将重磅发布自研Tair持久存储系列,提供大规格命令级持久化能力,更大 容量、无抖动且兼容原生Redis的数据结构和接口的云上Redis服务。该自研产品打破了传 统Redis中的数据只能在易失性存储上进行读写的刻板印象,针对客户不同业务阶段的数据 存储要求与服务成本考量,基于Intel傲腾™的持久内存型与基于阿里云ESSD的容量存储 型两种产品形态,更大容量、更低成本、命令级数据持久化能力,满足各种数据温度的Redis 数据存储需求。目前该产品已经在阿里巴巴被广泛使用。 10月28日,全新揭秘,现在预约更有机会获得阿里云“冬天第一件加绒帽衫”。
1390 1
阿里云自研云原生Tair持久存储系列重磅发布
|
存储 Cloud Native NoSQL
阿里云新品发布会周刊第74期 丨 自研云原生缓存数据库Tair持久存储系列重磅发布
大规格、持久化存储、兼容原生Redis的云上数据库Tair全新发布,5折尝鲜~
4501 0
阿里云新品发布会周刊第74期 丨   自研云原生缓存数据库Tair持久存储系列重磅发布
|
NoSQL Java
Tair是一个高性能,分布式,可扩展,高可靠的key/value结构存储系统(转)
Tair是一个高性能,分布式,可扩展,高可靠的key/value结构存储系统! Tair专为小文件优化,并提供简单易用的接口(类似Map)Tair支持Java和C版本的客户端   Tair is a distributed key-value storage system originally developed at Taobao.
2012 0
|
7月前
|
NoSQL Redis 数据库
Tair for Redis数据闪回:任意时间点数据恢复
Redis的数据闪回功能提供了更精细化的数据恢复能力,支持恢复实例指定Key的数据到指定时间点。
338 0
|
7月前
|
存储 缓存 NoSQL
课时1:Redis(Tair) 产品介绍
课时1:Redis(Tair) 产品介绍
152 0
|
9月前
|
弹性计算 NoSQL 算法
阿里云Redis与Tair压力测评
无意中发现阿里云开发社区的训练营活动,其中有一个7天玩转Redis、tair训练营计划,里面可以免费领取三个月的试用礼包,因为是参营任务,不领取都不行的那种,领取之后放着也是放着,不如跑跑数据看看Redis和Tair的性能有什么区别,简单的压力测试下,本次测试并不精确,也不具有太多参考意义,真的就是为了测试而测试。
186 0