分表分库（百亿级大数据存储）

2022-01-11 1233

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

云数据库 RDS MySQL，集群系列 2核4GB

云数据库 RDS MySQL，高可用系列 2核4GB

简介： 100亿数据其实并不多，一个比较常见的数据分表分库模型：MySql数据库8主8从，每服务器8个库，每个库16张表，共1024张表（从库也有1024张表），每张表1000万到5000万数据，整好100亿到500亿数据！

NewLife.XCode是一个有15年历史的开源数据中间件，支持netcore/net45/net40，由新生命团队(2002~2019)开发完成并维护至今，以下简称XCode。

整个系列教程会大量结合示例代码和运行日志来进行深入分析，蕴含多年开发经验于其中，代表作有百亿级大数据实时计算项目。

开源地址：https://github.com/NewLifeX/X （求star, 938+）

XCode是重度充血模型，以单表操作为核心，不支持多表关联Join，复杂查询只能在where上做文章，整个select语句一定是from单表，因此对分表操作具有天然优势！

！！阅读本文之前，建议回顾《百亿级性能》，其中“索引完备”章节详细描述了大型数据表的核心要点。

此处为语雀内容卡片，点击链接查看：https://www.yuque.com/smartstone/xcode/100billion

100亿数据其实并不多，一个比较常见的数据分表分库模型：

MySql数据库8主8从，每服务器8个库，每个库16张表，共1024张表（从库也有1024张表），每张表1000万到5000万数据，整好100亿到500亿数据！

例程剖析

例程位置：https://github.com/NewLifeX/X/tree/master/Samples/SplitTableOrDatabase

新建控制台项目，nuget引用NewLife.XCode后，建立一个实体模型（修改Model.xml）：

</Columns>

</Indexes>

</Table>

</Tables>

在Build.tt上右键运行自定义工具，生成实体类“历史.cs”和“历史.Biz.cs”。不用修改其中代码，待会我们将借助该实体类来演示分表分库用法。

为了方便，我们将使用SQLite数据库，因此不需要配置任何数据库连接，XCode检测到没有名为STOD的连接字符串时，将默认使用SQLite。

此外，也可以通过指定名为STOD的连接字符串，使用其它非SQLite数据库。

按数字散列分表分库

大量订单、用户等信息，可采用crc16散列分表，我们把该实体数据拆分到4个库共16张表里面：

static void TestByNumber()

{

XTrace.WriteLine("按数字分表分库");

// 预先准备好各个库的连接字符串，动态增加，也可以在配置文件写好

for (var i = 0; i < 4; i++)

{

var connName = $"HDB_{i + 1}";

DAL.AddConnStr(connName, $"data source=numberData\\{connName}.db", null, "sqlite");

History.Meta.ConnName = connName;

// 每库建立4张表。这一步不是必须的，首次读写数据时也会创建

//for (var j = 0; j < 4; j++)

//{

// History.Meta.TableName = $"History_{j + 1}";

// // 初始化数据表

// History.Meta.Session.InitData();

//}

}

//!!! 写入数据测试

// 4个库

for (var i = 0; i < 4; i++)

{

var connName = $"HDB_{i + 1}";

History.Meta.ConnName = connName;

// 每库4张表

for (var j = 0; j < 4; j++)

{

History.Meta.TableName = $"History_{j + 1}";

// 插入一批数据

var list = new List<History>();

for (var n = 0; n < 1000; n++)

{

var entity = new History

{

Category = "交易",

Action = "转账",

CreateUserID = 1234,

CreateTime = DateTime.Now,

Remark = $"[{Rand.NextString(6)}]向[{Rand.NextString(6)}]转账[￥{Rand.Next(1_000_000) / 100d}]"

};

list.Add(entity);

}

// 批量插入。两种写法等价

//list.BatchInsert();

list.Insert(true);

}

通过 DAL.AddConnStr 动态向系统注册连接字符串：

var connName = $"HDB_{i + 1}";

DAL.AddConnStr(connName, $"data source=numberData\\{connName}.db", null, "sqlite");

连接名必须唯一，且有规律，后面要用到。数据库名最好也有一定规律。

使用时通过Meta.ConnName指定后续操作的连接名，Meta.TableName指定后续操作的表名，本线程有效，不会干涉其它线程。

var connName = $"HDB_{i + 1}";

History.Meta.ConnName = connName;

History.Meta.TableName = $"History_{j + 1}";

注意，ConnName/TableName改变后，将会一直维持该参数，直到修改为新的连接名和表名。

指定表名连接名后，即可在本线程内持续使用，后面使用批量插入技术，给每张表插入一批数据。

运行效果如下：

连接字符串指定的numberData目录下，生成了4个数据库，每个数据库生成了4张表，每张表内插入1000行数据。

指定不存在的数据库和数据表时，XCode的反向工程将会自动建表建库，这是它独有的功能。（因异步操作，密集建表建库时可能有一定几率失败，重试即可）

按时间序列分表分库

日志型的时间序列数据，特别适合分表分库存储，定型拆分模式是，每月一个库每天一张表。

static void TestByDate()

{

XTrace.WriteLine("按时间分表分库，每月一个库，每天一张表");

// 预先准备好各个库的连接字符串，动态增加，也可以在配置文件写好

var start = DateTime.Today;

for (var i = 0; i < 12; i++)

{

var dt = new DateTime(start.Year, i + 1, 1);

var connName = $"HDB_{dt:yyMM}";

DAL.AddConnStr(connName, $"data source=timeData\\{connName}.db", null, "sqlite");

}

// 每月一个库，每天一张表

start = new DateTime(start.Year, 1, 1);

for (var i = 0; i < 365; i++)

{

var dt = start.AddDays(i);

History.Meta.ConnName = $"HDB_{dt:yyMM}";

History.Meta.TableName = $"History_{dt:yyMMdd}";

// 插入一批数据

var list = new List<History>();

for (var n = 0; n < 1000; n++)

{

var entity = new History

{

Category = "交易",

Action = "转账",

CreateUserID = 1234,

CreateTime = DateTime.Now,

Remark = $"[{Rand.NextString(6)}]向[{Rand.NextString(6)}]转账[￥{Rand.Next(1_000_000) / 100d}]"

};

list.Add(entity);

}

// 批量插入。两种写法等价

//list.BatchInsert();

list.Insert(true);

}

时间序列分表看起来比数字散列更简单一些，分表逻辑清晰明了。

例程遍历了今年的365天，在连接字符串指定的timeData目录下，生成了12个月份数据库，然后每个库里面按月生成数据表，每张表插入1000行模拟数据。

综上，分表分库其实就是在操作数据库之前，预先设置好 Meta.ConnName/Meta.TableName，其它操作不变！

分表查询

说到分表，许多人第一反应就是，怎么做跨表查询？

不好意思，不支持！

只能在多张表上各自查询，如果系统设计不合理，甚至可能需要在所有表上进行查询。

不建议做视图union，那样会无穷无尽，业务逻辑还是放在代码中为好，数据库做好存储与基础计算。

分表查询的用法与分表添删改一样：

static void SearchByDate()

{

// 预先准备好各个库的连接字符串，动态增加，也可以在配置文件写好

var start = DateTime.Today;

for (var i = 0; i < 12; i++)

{

var dt = new DateTime(start.Year, i + 1, 1);

var connName = $"HDB_{dt:yyMM}";

DAL.AddConnStr(connName, $"data source=timeData\\{connName}.db", null, "sqlite");

}

// 随机日期。批量操作

start = new DateTime(start.Year, 1, 1);

{

var dt = start.AddDays(Rand.Next(0, 365));

XTrace.WriteLine("查询日期：{0}", dt);

History.Meta.ConnName = $"HDB_{dt:yyMM}";

History.Meta.TableName = $"History_{dt:yyMMdd}";

var list = History.FindAll();

XTrace.WriteLine("数据：{0}", list.Count);

}

// 随机日期。个例操作

start = new DateTime(start.Year, 1, 1);

{

var dt = start.AddDays(Rand.Next(0, 365));

XTrace.WriteLine("查询日期：{0}", dt);

var list = History.Meta.ProcessWithSplit(

$"HDB_{dt:yyMM}",

$"History_{dt:yyMMdd}",

() => History.FindAll());

XTrace.WriteLine("数据：{0}", list.Count);

}

仍然是通过设置 Meta.ConnName/Meta.TableName 来实现分表分库。日志输出可以看到查找了哪个库哪张表。

这里多了一个 History.Meta.ProcessWithSplit ，其实是快捷方法，在回调内使用连接名和表名，退出后复原。

分表分库后，最容易犯下的错误，就是使用时忘了设置表名，在错误的表上查找数据，然后怎么也查不到……

分表策略

根据这些年的经验：

Oracle适合单表1000万~1亿行数据，要做分区
MySql适合单表1000万~5000万行数据，很少人用MySql分区

如果统一在应用层做拆分，数据库只负责存储，那么上面的方案适用于各种数据库。

同时，单表数据上限，就是大家常问的应该分为几张表？在系统生命周期内（一般1~2年），确保拆分后的每张表数据总量在1000万附近最佳。

根据《百亿级性能》，常见分表策略如下：

日志型时间序列表，如果每月数据不足1000万，则按月分表，否则按天分表。缺点是数据热点极为明显，适合热表、冷表、归档表的梯队架构，优点是批量写入和抽取性能显著；
状态表（订单、用户等），按Crc16哈希分表，以1000万为准，决定分表数量，向上取整为2的指数倍（为了好算）。数据冷热均匀，利于单行查询更新，缺点是不利于批量写入和抽取；
混合分表。订单表可以根据单号Crc16哈希分表，便于单行查找更新，作为宽表拥有各种明细字段，同时还可以基于订单时间建立一套时间序列表，作为冗余，只存储单号等必要字段。这样就解决了又要主键分表，又要按时间维度查询的问题。缺点就是订单数据需要写两份，当然，时间序列表只需要插入单号，其它更新操作不涉及。

至于是否需要分库，主要由存储空间以及性能要求决定。

分表与分区对比

还有一个很常见的问题，为什么使用分表而不是分区？

大型数据库Oracle、MSSQL、MySql都支持分区，前两者较多使用分区，MySql则较多分表。

分区和分表并没有本质的不同，两者都是为了把海量数据按照一定的策略拆分存储，以优化写入和查询。

分区除了能建立子索引外，还可以建立全局索引，而分表不能建立全局索引；
分区能跨区查询，但非常非常慢，一不小心就扫描所有分区；
分表架构，很容易做成分库，支持轻易扩展到多台服务器上去，分区只能要求数据库服务器更强更大；
分区主要由DBA操作，分表主要由程序员控制；

！！！某项目使用XCode分表功能，已经过生产环境三年半考验，日均新增4000万~5000万数据量，2亿多次添删改，总数据量数百亿。

分表分库（百亿级大数据存储）

例程剖析

按数字散列分表分库

按时间序列分表分库

分表查询

分表策略

分表与分区对比

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

分表分库（百亿级大数据存储）

例程剖析

按数字散列分表分库

按时间序列分表分库

分表查询

分表策略

分表与分区对比

热门文章

最新文章

相关课程

相关电子书

相关实验场景