分布式数据库新秀TIDB初探

2021-08-03 997

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 RDS MySQL，集群系列 2核4GB

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

RDS MySQL Serverless 高可用系列，价值2615元额度，1个月

简介： 背景随着社会数字化程度的加深，网络逐渐成为了社会的基础设施。随着互联网渗透程度的不断深入和互联网的进一步下沉，人们会在互联网上面花费更多的时间，产生更多的数据。作为数据存储基石的DB面临着新的挑战和发展空间，由于数量的增长，之前的单机DB将面临越来越多的挑战，此时就出现数据库扩展的多种方案以满足海量数据的存储。目前主流的应对方案主要是分库分表，但是也存在着分布式事务，跨节点 join，扩容复杂等

背景

随着社会数字化程度的加深，网络逐渐成为了社会的基础设施。随着互联网渗透程度的不断深入和互联网的进一步下沉，人们会在互联网上面花费更多的时间，产生更多的数据。作为数据存储基石的DB面临着新的挑战和发展空间，由于数量的增长，之前的单机DB将面临越来越多的挑战，此时就出现数据库扩展的多种方案以满足海量数据的存储。目前主流的应对方案主要是分库分表，但是也存在着分布式事务，跨节点 join，扩容复杂等局限。

分布式数据TIDB简介

TIDB是一款同时支持在线事务处理和在线分析处理数据（Hybrid Transactional and Analytical Processing, HTAP）的关系性分布式数据库。在线事务处理，一般日常的事务处理数据库类型。在线分析处理，指由于数据分析的数据库类型，侧重于数据分析与决策，大多是基于MR模型的分布式存储系统或者是列式存储，例如clickhouse。

一键水平扩容或者缩容

由于采用计算与存储分离，可针对不同场景对计算模块或者存储模块快速透明化扩容。

金融级高可用

多副本存储，基于raft协议的事务日志

实时 HTAP

通过基于两种不同的存储模型TIKV和列式存储TiFlash，同时支持OLTP和OLAP，通过raft协议保持两者数据的强一致性。

云原生的分布式数据库

可以基于TIDB生态的 TI oprator，在私有云、公有云或者混合云实现工具化部署。

兼容 MySQL 5.7 协议和 MySQL 生态

兼容大部分Mysql 5.7协议，用户可以在原有代码不做变更的基础上，在Mysql和TIDB之间实现透明化迁移。

架构

（图片来自Pingcap官网）

TIDB整个集群主要分为TIDB Server、PD Server、TIKV Server 、TIFlash（可选）

TIDB Server：这部分主要负责Sql 解析、优化，生成执行计划，此部分是无状态的。TIDB 还扮演着计算下推的角色，

同步对SQL的解析和分析，推断是适用TIKV还是TIFlash，将数据计算下推到数据存储层。例如要按照某一个字段的一段范围的内单位时间的度量，将会下推给TIflash引擎，利用列式存储提高查询性能。

PD Server:元信息模块。主要负责数据在TIKV的分布情况和集群的拓扑情况，协调数据数据迁移。

并负责生成分布式事务的唯一ID。

TIKV：TIKV是基于rocksdb二次开发的KV存储引擎。Region为最基本数据存储单元，在每一个region中按序存储一段数据，Region的迁移、合并、迁移受PDServer的调控。

TIFlash：列式存储引擎、记得之前是基于clickhouse开发的存储引擎。作为TIKV learner的角色提交数据。异步复制、一致性（读之前会校验与Leader的数据同步状态）。clickhouse特点，多线程并发查询，海量数据情况下并能比较优异，确定就是并发度不高。

分布式事务

TIDB的分布式事务是基于Google 的Percolator二阶段提交算法实现的。从3.0开始默认实现是悲观事务,参考TiDB 新特性漫谈：悲观事务。并且基于MVCC多版本控制实现了事务的并发控制，详细可以参考TiKV 的 MVCC（Multi-Version Concurrency Control）机制。

Region存储模型

大数据量的KV存储目前有两种存储方案。

基于Hash 的 Map存储方案，例如redis。
基于LSM Tree的有序分块存储的方案，例如mongodb，rocksdb。

TIDB的KV实现是基于第二种的实现，Region是数据在TIKV中的存储基本数据模型，为了方便数据在rocksdb的存储和迁移，tidb将数据以region为单位组织存储。在每一个region中数据均顺序组织（startKey，endKey），方便PD的调度迁移与写入。并且数据的复制与分发也已region为单位组织。

详细可以参考TIDB存储-region

性能分析

下面是之前做的一份压测数据。

1 TIDBServer，3 TIKV，同城三机房部署。
并发10qps，同时查询数8SQL。
工具Jemter
数据量200-300G
TIDB 4.x版本

机器性能暂时没有打满，可以看到响应时间基本在15ms左右

除了这份数据和pingcap公布的官方tpc数据，还有其他部分公司DBA在自己测试环境做了压测。得出结论，在数据量达到一定程度下，与mysql性能相比差距不大，并且在某些场景会超过mysql的性能。当然刚刚发布的5.0版本性能又有了一定提升

其他以官方公布的数据为准 TiDB Sysbench 性能对比测试报告 - v5.1.0 对比 v5.0.2

使用现状

TIDB作为国内公司开发的分布式数据库新秀，受到国内许多互联网、金融、银行等行业公司的关注，并投入了一定的资源参与到了TIDB的生态建设。例如美团、伴鱼、bilibili等。

总结

随着数字化加深、数据量的暴增，分布式数据库是未来解决海量数据的唯一途径。同时随着云原生基础设施不断地完善，作为整条链路的最后一块单点阵地-数据库，基于云设施的分布式方案前景看好。并且随着国内技术行业的升级，相信会有更多像TIDB这种自研的优秀的基础技术产品涌现。去探寻技术附加值更高的市场，打造数据我们自己的技术壁垒。支持国产！

分布式数据库新秀TIDB初探

背景

分布式数据TIDB简介

架构

分布式事务

Region存储模型

性能分析

使用现状

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

分布式数据库新秀TIDB初探

背景

分布式数据TIDB简介

架构

分布式事务

Region存储模型

性能分析

使用现状

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景