Tair持久存储系列技术解读-阿里云开发者社区

开发者社区> 小攻云攻略> 正文

Tair持久存储系列技术解读

简介: 阿里云数据库重磅发布自研Tair持久存储系列的产品打破了传统Redis中的数据只能在易失性存储上进行读写的刻板印象,针对客户不同业务阶段的数据存储要求与服务成本考量,全新实现了持久性更强、成本更低的KV数据库。
+关注继续查看

Redis做为当今主流的内存数据库支持许多丰富的数据结构,比如哈希表、集合,还有lua脚本、事务、消息订阅等等高级特性,同时使用内存做为主要的存储介质,支持高速访问。

但是由于其数据全部存储在内存,成本较高,而且对于海量数据存储的支持也存在一些痛点,比如在AOFREWRITE和生成RDB快照时会有较高的latency spike,大数据量下全量同步耗时较长、失败率较高。并且数据可靠性稍弱,RDB和AOF不能保证数据不丢失。

为了解决上述问题,拓宽Redis的应用场景,我们结合新技术新硬件推出了Tair持久存储系列产品:容量存储型和持久内存型,支持大容量存储和更高的数据可靠性。

>>发布会传送门

点击了解产品详情

容量存储型
9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

使用磁盘存储就是其中的解决方案之一,利用磁盘可以降低成本并且提供海量存储。但是在磁盘上实现redis也会有一些挑战:

1.首先redis的数据结构都是基于内存实现,内存可以直接寻址,而磁盘是个块设备,需要在磁盘上构建存储引擎来支持redis数据结构访问。

2.另外磁盘和内存有较大的性能差距,原生redis单线程的架构无法满足吞吐需求,需要从架构设计上提升访问性能。

应对这些挑战,我们基于rocksdb进行了改造,提供了高性能的存储引擎TairDB,并实现了redis数据结构向简单kv的编码映射,使redis数据能够存储在磁盘上;采用多线程的架构来提升访问磁盘的性能;同时使用阿里云ESSD高效云盘为存储底座,利用云盘快照进行备份和全量同步,避免fork带来的问题并提高全量同步效率。

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

redis有五种基本数据类型,其中string可以直接映射到rocksdb的kv,但是其他一些复杂的数据结构hash、list、set、zset需要通过一定格式的编码把redis的数据结构映射到rocksd的kv上。

我们把redis数据结构拆分为meta和data两类,进行不同的编码,通过meta可以去找到其对应的data,也即二级索引。

以hash为例,执行hset myhash myfield myvalue之后,hash表的名字myhash就会在meta中生成一份kv,其中key就是myhash,value会标志它的属性为hash表;myfield和myvalue会记录在data中,再以key+类型+filed就可以索引到hash表的所有内容。

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

为了实现多线程架构,首先需要解决key冲突的问题,这里我们实现了key级别的锁,这样可以大大降低锁冲突,提高并发度。命令执行过程中多个线程首先获取key锁,然后按命令的逻辑执行,通过预先设计好的编码规则存取数据。最后再把结果以事务的方式提交给底层存储引擎。每个命令的执行都是要在事务提交之后才会返回结果,这样每一条命令都是持久化的,大大提升了数据可靠性。

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

关于主备复制,全量复制使用云盘快照提高效率。增量复制采用类似MySQL binlog的方式,事务提交之后同时也会写入binlog,然后会有sender把binlog传输给备库,binlog传输到备库上时会首先保存为relaylog作为中继,然后通过relaylog再回放应用,这样有两点好处:

1.支持semisync,只要relaylog落盘就可以认为事务在备库也提交完成,不用等待relaylog应用,这样既可以提升增量同步的效率,同时提供了更强的主备一致性保证。

2.支持并发回放,在relaylog中记录并发度的元信息,不同的key就可以进行并发回放提高效率,同时相同的key仍然按序回放,保证主备一致性,不会造成数据错乱。

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

上图为不同类型场景和实例规格下的性能测试结果,测试命令为时间复杂度O(1)的GET/SET,综合性能中位数在开源版70%。

在数据小于内存的情况下大部分数据都会缓存在操作系统的page cache中,整体性能会优于数据大于内存的情况。规格越高的实例线程越多并发度也就越高,性能也相对越好。另外不同于内存中的GET/SET,磁盘上写入数据需要有read modify write的过程,也即需要先读取元数据才能进行修改,所以对于GET/SET写性能要弱于读性能。

持久内存型

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

傲腾持久内存是Intel推出的一款非易失性内存产品,在提供接近内存延时能力的同时保持持久化的能力, 理想情况下对于Redis场景来说是非常好的,因为数据写入到持久内存中已经持久化,那么就不需要额外的日志和Checkpoint用来保证持久化的特性,同时傲腾持久内存在延迟上也比较接近内存优于传统SSD,成本上对比内存也更加的便宜。

Redis基于傲腾持久内存能达到高性能的同时拥有较高的持久化能力,但是实际在工程实现会碰到非常大的挑战,包括:

1.需要使用持久化内存的分配器来代替原有的内存分配器,分配器的元数据信息需要持久化,否则在恢复的时候会造成内存的泄露或者不一致。
2.原本String,Set,Hash这些数据结构和索引在异常的时候全部失效在恢复的时候重建,而现在这些数据都是持久化的,如何支持设计持久化的数据结构是目前工业界和理论界主要的研究方向之一
3.索引和数据的一致性,数据的完整性,这些都会在下一张NVM的挑战中做更详细的阐释
4.持久内存在延时还是比内存更高,如何做好冷热分离,让系统拥有更高的性能。
5.如何拥有高性能的同时兼备强大的持久化能力。

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

持久内存的使用分为两大类Memory Mode和 AppDirecrt Mode, memory mode无需用户改造但是没有持久化内里, 使用App Direct mode之后对比传统SSD从block寻址转为字节寻址,同时接口也从文件write/read转为内存的load和store。

数据写入内存的过程可能会停留在CPU L1,L2cache,需要调用类似CLWB和CLFLUSHOPT这样的指令来刷到内存系统中,由于CPU只能保证8个字节的原子写入,那么对于一个16字节的写很有可能在写完第一个8字节的时候crash,后半部分没有写入成功这个就是所谓的partial writes, 上层应用在使用持久内存的时候需要额外的实现来保障数据持久问题。

下面的例子是一个双向链表,传统内存crash之后所有的数据丢失,而持久内存则保留了crash的状态,因此会出现B的Next指针指向了C而C的Prev指针缺没有指向B,这个时候的双向链表是出于异常的状态。 从链表衍生开来内存分配器中的管理结构也存在这个问题,会出现内存泄露等情况。

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

由于持久化的挑战,目前主流使用持久内存的方式都是当做Memory或者使用AppDirect但是不支持持久化,阿里云Tair持久内存版的是基于傲腾持久内存的自研引擎,解决了持久化编程中遇到的各种挑战,撘配阿里云官方提供的Linux操作系统镜像Aliyun Linux,Aliyun弹性计算服务首次(全球首家)在神龙裸金属服务器上引入傲腾持久内存,深度优化完善支持,为客户提供安全、稳定、高性能的体验。

阿里云持久内存版Tair的每一条记录都确保写入AEP并且持久化才返回,极大的提升数据的可靠性, 同时在读取路径上使用Dram缓存如索引等热点数据结构和元数信息,来加速数据访问的存取。

9989c5b90f96dedb20d3e717592eeed2c54bdb86.jpeg

在神龙裸金属机器上,我们使用相同配置进行了Tair持久内存版和Redis6.0的性能对比, 整体上吞吐为社区内存版本的90%, 延时上由于没有AofRewrite的干扰,P95的延时更加的稳定。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
【.NET Core项目实战-统一认证平台】第三章 网关篇-数据库存储配置(1)
原文:【.NET Core项目实战-统一认证平台】第三章 网关篇-数据库存储配置(1) 【.NET Core项目实战-统一认证平台】开篇及目录索引 本篇将介绍如何扩展Ocelot中间件实现自定义网关,并使用2种不同数据库来演示Ocelot配置信息存储和动态更新功能,内容也是从实际设计出发来编写我们自己的中间件,本文内容涵盖设计思想内容和代码内容,我希望园友们最好跟着我这个文章的思路先理解好后再看源代码,这样有利于融会贯通,本篇的文档及源码将会在GitHub上开源,每篇的源代码我将用分支的方式管理,本篇使用的分支为course1。
1172 0
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
3498 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4623 0
直播平台软件开发过程中的云存储和备份
随着科技不断地发展和进步,云技术的应用已经开始大面积的普及,云技术主要是指在广域网或局域网内将硬件、软件和网络等一系列资源统一起来,实现数据的计算、储存、共享和处理的一种托管技术。当然,开发直播 app软件过程中也会需要这一技术的帮助,今天主要给大家分享一下直播平台软件开发中的云储存和云备份的相关知识。
124 0
阿里云服务器安全组设置内网互通的方法
虽然0.0.0.0/0使用非常方便,但是发现很多同学使用它来做内网互通,这是有安全风险的,实例有可能会在经典网络被内网IP访问到。下面介绍一下四种安全的内网互联设置方法。 购买前请先:领取阿里云幸运券,有很多优惠,可到下文中领取。
9516 0
阿里云服务器远程登录用户名和密码的查询方法
阿里云服务器远程连接登录用户名和密码在哪查看?阿里云服务器默认密码是什么?云服务器系统不同默认用户名不同
848 0
开发者论坛一周精粹(第十二期):如何通过快照的瘦身和删除来节省储存费用
阿里云快照的帮助文档里面有一篇《删除快照和自动快照策略》,其实可以通过这个引导来达到节省费用的目的。 当您不再需要某个快照、或者快照个数超出额度的时候,您需要删除一部分快照释放空间。
2357 0
如何设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云安全组设置详细图文教程(收藏起来) 阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程。阿里云会要求客户设置安全组,如果不设置,阿里云会指定默认的安全组。那么,这个安全组是什么呢?顾名思义,就是为了服务器安全设置的。安全组其实就是一个虚拟的防火墙,可以让用户从端口、IP的维度来筛选对应服务器的访问者,从而形成一个云上的安全域。
4270 0
360
文章
125
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载