一种以ID特征为依据的数据分片(Sharding)策略[转]

简介: 假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。

http://yulans.cn/uncategorized/一种以id特征为依据的数据分片(sharding)策略

一种以ID特征为依据的数据分片(Sharding)策略

Filed under: 未分类 — cmpan @ 2011-11-01 00:21:23

假如您有一个应用程序,随着业务越来越有起色,系统所牵涉到的数据量也就越来越大,此时您要涉及到对系统进行伸缩(Scale)的 问题了。一种典型的扩展方法叫做向上伸缩(Scale Up,它的意思是通过使用更好的硬件来提高系统的性能参数。而另一种方法则叫做向外伸缩(Scale Out,它是指通过增加额外的硬件(如服务器)来达到相同的效果。从硬件成本还是系统极限的角度来说,向外伸缩一般都会优于向上伸 缩,因此大部分上规模的系统都会在一定程度上考虑向外的方式。由于许多系统的瓶颈都处在数据存储上,因此一种叫做数据分片(Database Sharding的数据架构方式应运而生,本文便会讨论这种数据架构方式的一种比较典型的实现方式。

简介

数据分片,自然便是将整体数据分摊在多个存储设备(下文统称为数据分区分区)上,这样每个存储设备的数据量相对就会小很多,以此满足系统的性能需求。值得注意的是,系统分片的策略有很多,例如常见的有以下几种:

·      根据ID特征:例如对记录的ID取模,得到的结果是几,那么这条记录就放在编号为几的数据分区上。

·      根据时间范围:例如前100万个用户数据在第1个分区中,第二个100万用户数据放在第2个分区中。

·      基于检索表:根据ID先去一个表内找到它所在的分区,然后再去目标分区进行查找。

·      ……

在这些数据分片策略之中没有哪个有绝对的优势,选择哪种策略完全是根据系统的业务或是数据特征来确定的。值得强调的是:数据分片不是银弹,它对系统的性能和伸缩性(Scalability带 来一定好处的同时,也会对系统开发带来许多复杂度。例如,有两条记录分别处在不同的服务器上,那么如果有一个业务是为它们建立一个关联,那么很可能表 示关联的记录就必须在两个分区内各放一条。另外,如果您重视数据的完整性,那么跨数据分区的事务又立即变成了性能杀手。最后,如果有一些需要进行全局 查找的业务,光有数据分片策略也很难对系统性能带来什么优势。

数据分片虽然重要,但在使用之前一定要三思而后行。一旦踏上这艘贼船,往往不成功便成仁,很难回头。在我的经验里,一个滥用数据分片策略而事倍功半的项目给我留下了非常深刻的印象(当然也有成功的啦),因此目前我对待数据分片策略变得愈发谨慎。

那么现在,我们便来讨论一种比较常见的数据分片策略。


策略描述

这里我先描述一个极其简单的业务:

1.  系统中有用户,用户可以发表文章,文章会有评论

2.  可以根据用户查找文章

3.  可以根据文章查找评论

那么,如果我要对这样一个系统进行数据分片又该怎么做呢?这里我们可以使用上面提到的第一种方式,即对记录的ID取模,并根据结果选择数据所在的分区。根据后两条业务中描述的查询要求,我们会为分区策略补充这样的规则:

·      某个用户的所有文章,与这个用户处在同一数据分区内。

·      某篇文章的所有评论,与这篇文章处在用一数据分区内。

您可能会说,似乎只要保证相同用户文章在同一个数据分区内就行了,不是吗?没错,不过我这里让文章和用户在同一个分区内,也是为了方便许多额外的操作(例如在关系数据库中进行连接)。那么假设我们有4个数据分区,那么它们内部的条目可能便是:

分区0

分区1

·       User 4

o   Article 8

o   Article 12

§  Comment 4

§  Comment 16

·       User 12

·       Article 4

·       User 1

o   Article 5

o   Article 9

§  Comment 13

§  Comment 17

·       User 5

·       Article 13

分区2

分区3

·       User 2

o   Article 10

o   Article 14

§  Comment 6

§  Comment 10

·       User 10

·       Article 4

·       User 7

o   Article 7

o   Article 11

§  Comment 3

§  Comment 15

·       User 11

·       Article 4

ID0的分区中,所有对象的ID4均为0,其他分区里的对象也有这样的规律。那么好,在实际应用中,如果我们需要查找“ID2的用户,便去第2分 区搜索便是;如果要查找“ID8的文章的所有评论那么也只要去第0分区进行一次查询即可。既然查询不成问题,那么我们该如何添加新记录呢?其实这也不 难,只要:

·      添加新用户时,随机选择一个数据分区

·      添加新文章时,选择文章作者所在分区(可根据ArticleUserID求模得到)

·      添加新评论时,选择文章所在分区(可根据CommentArticleID求模得到)

但 是,我们又如何保证新纪录的ID正好满足我们的分区规律?例如我们向第3分区添加的新数据,则它的ID必须是3711等等。以前,我们可能会使用数据 库的自增列作为ID的值,但这似乎不能满足我们取模的要求。以前我们可能还会使用GUID,但是我们如何生成一个4模于3”GUID呢?其实我 们还是可以使用自增ID来解决这个问题,只不过需要进行一些简单的设置。例如在SQL Server中,默认的自增ID属性为IDENTITY(1, 1),表示ID1开始,以1为间距自动增长。于是我们在创建数据分区的时候,每个自增列的属性则可以设置为:

·      分区0IDENTITY(4, 4)

·      分区1IDENTITY(1, 4)

·      分区2IDENTITY(2, 4)

·      分区3IDENTITY(3, 4)

这样,ID方面的问题便交由数据库来关心吧,我们的使用方式和以前并没有什么区别。


缺陷

那么这个数据分片策略有什么缺陷呢?当然缺陷还是有很多啦,只是大多数问题可能还是要和业务放在一起考虑时才会凸显出来。不过有一个问题倒和业务关系不大:如果数据继续增长,单个数据分区的数据量也超标了,怎么办?

自 然,继续拆分咯。那么我们使用什么分区规则呢?和原先一致吗?我们举个例子便知。假设我们原有4个分区,有一个ID1的用户落在第1分区里,他的文章也 都在这个分区里,ID分别是1591317等等。于是在某一天,我们需要将分区数量提高到5个(财力有限,一台一台来吧),在重新计算每篇文章所 在的分区之后,我们忽然发现:

·      ID1的文章,模51,处在分区1

·      ID5的文章,模50,处在分区0

·      ID9的文章,模54,处在分区4

·      ID13的文章,模53,处在分区3

·      ID17的文章,模52,处在分区2

呼,5 个分区都齐了!这说明,如果我们保持记录原来的ID不变,是没有办法直接使用之前的分区规则——无论您扩展成几个分区,(即便是从4个到8个)也只能缓 解也不能解决这个情况。那么这时候该如何是好呢?例如,我们可以重新分配记录,改变原有ID,只是这么做会产生一个问题,便是外部URL可能也会随 着ID一起改变,这样对SEO的折损很大。为此,我们可以制作一个查询表:例如在查询小于1234567ID时(这是老系统的最大ID),假设是 100,则根据查询表得知这条记录的新ID7654321,再以此去数据源进行查找。解决这类问题的方法还有几种,但无论怎么做都会对新系统带来额外的 复杂度。而且,一次扩展也罢,如果以后还要有所扩展呢?


image.png

有朋友可能会说,取模自然会带来这样的问题,那么为什么不用一致性哈希(Consistent Hash呢? 现在一致性哈希是个很流行的东西,和Memcached一样,如果不用上就会被一些高级架构师所鄙视。不过在这里一致性哈希也不能解决问题。一致性哈希的 目的,是希望在增加服务器的时候降低数据移动规模,让尽可能多的数据保留在原有的服务器上。而我们现在的问题却是在增加服务器的时候,让特征相同的 数据同样放在一起。两个目标不同,这并不是一致性哈希的应用场景。

我在以前的一个项目中曾经用过这样的方法:根据对访问量与数据量的 预估,我们认为使用最多24个分区便一定可以满足性能要求(为什么是24个?因为它能被许多数字整除)。于是,从项目第一次在生产环境中部署时便创建了 24个数据分区,只不过一开始只用了2台服务器,每台服务器放置12个数据分区。待以后需要扩展时,则将数据分区均匀地迁移到新的服务器上即可。我们团队 当时便是用这种方法避免尴尬的数据分配问题。

没错,数据分区的数目是个限制,但您真认为,24个数据分区还是无法满足您的项目需求吗? 要知道,需要用上24个数据分区的项目,一般来说本身已经有充分的时间和经济实力进行架构上的重大调整(也该调整了,几乎没有什么架构可以满足各种数据规 模的需求)。此外,无论是系统优化还是数据分片都可以同时运用其他手段。

不过,我们目前还是想办法解决这个问题吧。

策略改进

我们之所以会遇到上面这个问题,在于我们没有选择好合适的策略,这个策略把一些重要的要求具体化了,导致具体化后的结果在外部条件改变的时候,却无法重新满足原有的要求。还是以前面的案例来说明问题,其实我们要求其实是:

·      某个用户的所有文章,与这个用户处在同一数据分区内。

·      某篇文章的所有评论,与这篇文章处在用一数据分区内。

而我们具体化以后的结果却是:

·      某个用户的所有文章ID,与这个用户的ID4后的余数相同。

·      某篇文章的所有评论ID,与这篇文章的ID4后的余数相同。

之 所以能如此具体化,这是因为有“4个分区这样的前提条件在,一旦这个前提条件发生了改变,则杯具无法避免。因此,我们在制定规则的时候,其实不应该 把前提条件给过分的具体化”——具体化可以,但不能过度,得留有一定空间(这个稍后再谈)。打个比方,还是前面的条件(XXXX处在同一数据分区 内),但我们换一种具体化的方式:

·      某个用户的所有文章ID的前缀,便是这个用户的ID。例如,ID1的用户的所有文章,其ID便可能是1-A11-A21-A3……

·      某篇文章的所有评论ID,与这个文章的ID使用相同前缀。例如,ID3-A1的文章的所有评论,其ID便可能是3-C13-C23-C3……

使 用这个策略,我们便可以保证与某个用户相关的所有数据都共享相同的特征ID的前缀都相同),然后我们便可以根据这个特征来选择分区——例如,还 是以取模的方式。此时,我们已经确保了相同分区内的所有数据都具备相同的特征,即便分区数量有所调整,我们也只需要根据特征重新计算分区即可,影 响不大。而以前为什么不行?因为4的余数只是结果而不是特征,这里的特征应该是追本溯源后的用户ID相同,而这一点已经体现在新的 策略中了。

还是通过图示来说明问题吧。假设原有4个分区,使用取模的策略:


分区0

分区1

·       User 4

o   Article 4-A1

o   Article 4-A2

§  Comment 4-C1

§  Comment 4-C2

·       User 12

·       Article 12-A3

·       User 1

o   Article 1-A4

o   Article 1-A5

§  Comment 1-C3

§  Comment 1-C4

·       User 5

·       Article 5-A6

分区2

分区3

·       User 2

o   Article 2-A7

o   Article 2-A8

§  Comment 2-C5

§  Comment 2-C6

·       User 10

·       Article 10-A9

·       User 7

o   Article 7-A10

o   Article 7-A11

§  Comment 7-C7

§  Comment 7-C8

·       User 11

·       Article 11-A12

当分区数量调整为5个之后(为了避免分区3空缺,我又补充了一些对象):

分区0

分区1

·       User 10

o   Article 10-A9

·       User 5

o   Article 5-A6

·       User 1

o   Article 1-A4

o   Article 1-A5

§  Comment 1-C3

§  Comment 1-C4

·       User 11

·       Article 11-A12

分区2

分区3

·       User 2

o   Article 2-A7

o   Article 2-A8

§  Comment 2-C5

§  Comment 2-C6

·       User 12

·       Article 12-A3

·       User 7

·       Article 7-A10

·       Article 7-A11

§  Comment 7-C7

§  Comment 7-C8

·       User 8

o   Article 8-A12

o   Article 8-A13

§  Comment 8-C9

§  Comment 7-C10

分区4

·       User 4

o   Article 4-A1

o   Article 4-A2

§  Comment 4-C1

§  Comment 4-C2

是不是很合理?

值 得一提的是,只要满足了特征这个要求,其实选择分区的方式并没有什么限制。例如,我们可以不用取模的方式,而是使用一致性哈希”——没错,这里 就是一致性哈希的使用场景了。在利用一致性哈希来选择分区之后,在添加服务器的情况下便可以相对减少数据的迁移数量了。

当然,在实 现时还可以运用一些技巧。例如,我们的特征并非一定要把用户ID作为前缀”——毕竟用户ID可能比较长,作为ID前缀还真有些难看(请想象把GUID作 为ID前缀,再加上另一个GUID作为ID主体的情景)。此时,我们可以把前提条件先进行一定程度的具体化(但就像之前提到的,不能过度),例如我们 可以把用户ID先进行取模,可能是1000万,便可以得到一个落在较大区间范围内的数字。然后,再把这个数字作BASE64编码,一下子前缀就缩小为4个 字符以内了。而且,1000万这个区间范围,无论是使用取模还是一致性哈希的方式来选择分区都非常可行,一般不会造成什么问题。

总结

数 据分片是系统优化的常用设计方式之一。正如前文所说的那样,数据分片的做法很多,本文提到的方式只是其中一种方式。这种根据ID特征的分片方式比较容易遇 到的问题之一,便是在数据分区数量改变时造成的规则冲突,这也正是我这篇文章所讨论的主要内容。从这个角度看来,其他一些分片方式,如创建时间也好,查找 表也罢,这样的问题反而不太常见。如果您有这方面的经验或是疑惑,也欢迎与我进行交流。

现在Web 2.0网站越来越热门了,此类项目的数据量也越来越大,从近几年的讨论形式可以看出,越来越多的人在强调什么大规模、高性能、或是海量数据。然后,似乎每 个人都会横向切分、纵向切分、缓存、分离。我猜,再接下来,估计又会有许多人以用关系型数据库为耻了吧?但是,想想这样的问题:博客园和JavaEye都 是国内技术社区的翘楚,它们都只用了1台数据库服务器。StackOverflow世界上最大的编程网站(它是使用ASP.NET MVC写的,兄弟们记住这个经典案例吧),似乎也只用了1台还是2台数据库服务器(可能配置比较高)及SQL Server。因此,即便是单台服务器,即便是使用关系型数据库,它在性能方面的潜力也是非常之高的。

因 此,数据分片应该只在需要的时候才做,因为它带来的复杂度会比中心存储的方式高出很多。这带来的结果是,可能您的应用程序还没有用足架构的能力就已经失败 了,这样各种投资也已经浪费了。假如您一开始用最简单的方式去做,可能很快会带来成长所需要空间及资源,此时再做更多投资进行架构优化也不迟——架构不是一蹴而就,而是演变得来的。当然,第一次投入多少复杂度是个需要权衡的东西,这也是考验架构师能力的地方。架构不是空中楼阁,而是各种真实资源调配的结果。

 

转自:http://blog.zhaojie.me/2010/03/sharding-by-id-characteristic.html


目录
相关文章
|
18天前
|
存储 编解码 负载均衡
数据分片算法
【10月更文挑战第25天】不同的数据分片算法适用于不同的应用场景和数据特点,在实际应用中,需要根据具体的业务需求、数据分布情况、系统性能要求等因素综合考虑,选择合适的数据分片算法,以实现数据的高效存储、查询和处理。
|
6月前
|
存储 缓存 算法
分布式全局id
分布式全局id
38MyCat - 分片规则(自然月分片)
38MyCat - 分片规则(自然月分片)
56 0
|
数据处理 数据库
08MyCat - 概念 - 分片节点、分片规则、全局序列号
08MyCat - 概念 - 分片节点、分片规则、全局序列号
54 0
|
SQL 算法 Java
自定义水平分库分表策略【hint分片】
自定义水平分库分表策略【hint分片】
|
SQL 算法 Java
自定义水平分库分表策略【范围分片】
自定义水平分库分表策略【范围分片】
|
存储 算法 中间件
MyCat - 分片 - 分片规则 - 固定分片 hash 算法 | 学习笔记
快速学习 MyCat - 分片 - 分片规则 - 固定分片 hash 算法
MyCat - 分片 - 分片规则 - 固定分片 hash 算法 | 学习笔记
|
算法 NoSQL Oracle
分布式id的生成策略4种方式
分布式id的生成策略4种方式
231 0
分布式id的生成策略4种方式
|
SQL 算法 中间件
MyCat - 分片 - 分片规则 - 一致性 hash 算法 | 学习笔记
快速学习 MyCat - 分片 - 分片规则 - 一致性 hash 算法
|
缓存 NoSQL 算法
分布式全局唯一ID生成策略
“唯一ID”在应用程序中是一个很常见的需求,它用于唯一标识一个业务对象、一个资源、或者一个消息等等。在数据库中,唯一ID一般是用来做为一个数据的主键。看过前面介绍MySQL索引原理的文章的朋友应该知道,主键对于数据库的重要性不言而喻。 在单机场景下,要得到一个全局唯一的ID是非常容易的,你可以使用数据库的自增功能。
281 0