高并发分布式环境中获取全局唯一ID[分布式数据库全局唯一主键生成]

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: 高并发分布式环境中获取全局唯一ID; 分布式数据库全局唯一主键生成

需求说明

在过去单机系统中,生成唯一ID比较简单,可以使用mysql的自增主键或者oracle中的sequence, 在现在的大型高并发分布式系统中,以上策略就会有问题了,因为不同的数据库会部署到不同的机器上,一般都是多主实例,而且再加上高并发的话,就会有重复ID的情况了。至于为什么会有重复就不多说了,技术人员都懂的。

本文讲述的案例不仅仅局限于数据库中的ID主键生产,也可以适用于其他分布式环境中的唯一标示,比如全局唯一事务ID,日志追踪时的唯一标示等。

先列出笔者最喜欢的一种全局唯一ID的生成方式,注意:没有完美的方案,只有适合自己的方案,还请读者根据具体的业务进行取舍,而且可以放到客户端进行ID 的生成,没有单点故障,性能也有一定保证,而且不需要独立的服务器。

全数字全局唯一标识(来自于mongodb)

其实现在有很多种生成策略,也各有优缺点,使用场景不同。这里说的是一种全数字的全局唯一ID,为什么我比较喜欢呢,首先它是全数字,保存和计算都比较简单(想一下MySQL数据库中对数字和字符串的处理效率),而且从这个ID中可以得到一些额外的信息,不想一些UUID、sha等字符串对我们几乎没有太大帮助。好了下面就说一下具体实现过程。

本算法来自于mongodb

ObjectId使用12字节的存储空间,每个字节存两位16进制数字,是一个24位的字符串。其生成方式如下:

12位生成规则:
[0,1,2,3] [4,5,6] [7,8] [9,10,11]
时间戳 |机器码 |PID |计数器

  1. 前四个字节时间戳是从标准纪元开始的时间戳,单位为秒,有如下特性:
  • 时间戳与后边5个字节一块,保证秒级别的唯一性;
  • 保证插入顺序大致按时间排序;
  • 隐含了文档创建时间;
  • 时间戳的实际值并不重要,不需要对服务器之间的时间进行同步(因为加上机器ID和进程ID已保证此值唯一,唯一性是ObjectId的最终诉求)。

上面牵扯到两个分布式系统中的概念:分布式系统中全局时钟同步很难,基本不可能实现,也没必要;时序一致性(顺序性)无法保证。这不属于本文范畴,感兴趣读者请自行搜索。

  1. 机器ID是服务器主机标识,通常是机器主机名的hash散列值。
  2. 同一台机器上可以运行多个mongod实例,因此也需要加入进程标识符PID。
  3. 前9个字节保证了同一秒钟不同机器不同进程产生的ObjectId的唯一性。后三个字节是一个自动增加的计数器(一个mongod进程需要一个全局的计数器),保证同一秒的ObjectId是唯一的。同一秒钟最多允许每个进程拥有(256^3 = 16777216)个不同的ObjectId。

总结一下:时间戳保证秒级唯一,机器ID保证设计时考虑分布式,避免时钟同步,PID保证同一台服务器运行多个mongod实例时的唯一性,最后的计数器保证同一秒内的唯一性(选用几个字节既要考虑存储的经济性,也要考虑并发性能的上限)。

改为全数字

上面mongodb中保存的是16进制,如果不想用16进制的话,可以修改为10进制保存,只不过占用空间会大一些。

后面的计数器留几位,具体就看你们的业务量了,设计的时候要预留出以后的业务增长量。单进程内的计数器可以使用atomicInteger。

具体代码请参考我写的另一篇文章[Twitter的分布式自增ID算法snowflake(有改动Java版)]()http://blog.csdn.net/liubenlong007/article/details/74354713

UUID

  UUID生成的是length=32的16进制格式的字符串,如果回退为byte数组共16个byte元素,即UUID是一个128bit长的数字,
  一般用16进制表示。
  算法的核心思想是结合机器的网卡、当地时间、一个随即数来生成UUID。
  从理论上讲,如果一台机器每秒产生10000000个GUID,则可以保证(概率意义上)3240年不重复
  优点:
  (1)本地生成ID,不需要进行远程调用,时延低
  (2)扩展性好,基本可以认为没有性能上限
  缺点:
  (1)无法保证趋势递增
  (2)uuid过长,往往用字符串表示,作为主键建立索引查询效率低,常见优化方案为“转化为两个uint64整数存储”或者“折半存储”(折半后不能保证唯一性)

注:以下这几种需要独立的服务器

来自Flicker的解决方案(依赖数据库)

因为MySQL本身支持auto_increment操作,很自然地,我们会想到借助这个特性来实现这个功能。

  Flicker在解决全局ID生成方案里就采用了MySQL自增长ID的机制(auto_increment + replace into + MyISAM)。一个生成64位ID方案具体就是这样的:
  先创建单独的数据库(eg:ticket),然后创建一个表:
  
CREATE TABLE Tickets64 (
id bigint(20) unsigned NOT NULL auto_increment,
stub char(1) NOT NULL default '',
PRIMARY KEY (id),
UNIQUE KEY stub (stub)
) ENGINE=MyISAM
  当我们插入记录后,执行SELECT * from Tickets64,查询结果就是这样的:

  +-------------------+------+
  | id                | stub |
  +-------------------+------+
  | 72157623227190423 | a    |
  +-------------------+------+
  在我们的应用端需要做下面这两个操作,在一个事务会话里提交:
REPLACEINTOTickets64 (stub)VALUES('a');
SELECTLAST_INSERT_ID();
  
  这样我们就能拿到不断增长且不重复的ID了。
  到上面为止,我们只是在单台数据库上生成ID,从高可用角度考虑,接下来就要解决单点故障问题:Flicker启用了两台数据库服务器来生成ID,通过区分auto_increment的起始值和步长来生成奇偶数的ID。
TicketServer1:
auto-increment-increment = 2
auto-increment-offset = 1
 
TicketServer2:
auto-increment-increment = 2
auto-increment-offset = 2
  最后,在客户端只需要通过轮询方式取ID就可以了。

  优点:充分借助数据库的自增ID机制,提供高可靠性,生成的ID有序。
  缺点:占用两个独立的MySQL实例,有些浪费资源,成本较高。在服务器变更的时候要修改步长,比较麻烦。
  

基于redis的分布式ID生成器

首先,要知道redis的EVAL,EVALSHA命令:
原理
利用redis的lua脚本执行功能,在每个节点上通过lua脚本生成唯一ID。
生成的ID是64位的:

  • 使用41 bit来存放时间,精确到毫秒,可以使用41年。
  • 使用12 bit来存放逻辑分片ID,最大分片ID是4095
  • 使用10 bit来存放自增长ID,意味着每个节点,每毫秒最多可以生成1024个ID
    比如GTM时间 Fri Mar 13 10:00:00 CST 2015 ,它的距1970年的毫秒数是 1426212000000,假定分片ID是53,自增长序列是4,则生成的ID是:

    5981966696448054276 = 1426212000000 << 22 + 53 << 10 + 41
    redis提供了TIME命令,可以取得redis服务器上的秒数和微秒数。因些lua脚本返回的是一个四元组。

    second, microSecond, partition, seq
    客户端要自己处理,生成最终ID。

    ((second * 1000 + microSecond / 1000) << (12 + 10)) + (shardId << 10) + seq;

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore &nbsp; &nbsp; ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库&nbsp;ECS 实例和一台目标数据库&nbsp;RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&amp;RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
3月前
|
SQL 关系型数据库 MySQL
乐观锁在分布式数据库中如何与事务隔离级别结合使用
乐观锁在分布式数据库中如何与事务隔离级别结合使用
|
1月前
|
消息中间件 架构师 数据库
本地消息表事务:10Wqps 高并发分布式事务的 终极方案,大厂架构师的 必备方案
45岁资深架构师尼恩分享了一篇关于分布式事务的文章,详细解析了如何在10Wqps高并发场景下实现分布式事务。文章从传统单体架构到微服务架构下分布式事务的需求背景出发,介绍了Seata这一开源分布式事务解决方案及其AT和TCC两种模式。随后,文章深入探讨了经典ebay本地消息表方案,以及如何使用RocketMQ消息队列替代数据库表来提高性能和可靠性。尼恩还分享了如何结合延迟消息进行事务数据的定时对账,确保最终一致性。最后,尼恩强调了高端面试中需要准备“高大上”的答案,并提供了多个技术领域的深度学习资料,帮助读者提升技术水平,顺利通过面试。
本地消息表事务:10Wqps 高并发分布式事务的 终极方案,大厂架构师的 必备方案
|
30天前
|
Cloud Native 关系型数据库 分布式数据库
PolarDB 分布式版 V2.0,安全可靠的集中分布式一体化数据库管理软件
阿里云PolarDB数据库管理软件(分布式版)V2.0 ,安全可靠的集中分布式一体化数据库管理软件。
|
2月前
|
缓存 关系型数据库 MySQL
高并发架构系列:数据库主从同步的 3 种方案
本文详解高并发场景下数据库主从同步的三种解决方案:数据主从同步、数据库半同步复制、数据库中间件同步和缓存记录写key同步,旨在帮助解决数据一致性问题。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
高并发架构系列:数据库主从同步的 3 种方案
|
2月前
|
关系型数据库 分布式数据库 数据库
PostgreSQL+Citus分布式数据库
PostgreSQL+Citus分布式数据库
74 15
|
2月前
|
消息中间件 资源调度 关系型数据库
如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理
本文介绍了如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理。主要内容包括安装Debezium、配置Kafka Connect、创建Flink任务以及启动任务的具体步骤,为构建实时数据管道提供了详细指导。
130 9
|
2月前
|
关系型数据库 MySQL Linux
Linux环境下MySQL数据库自动定时备份实践
数据库备份是确保数据安全的重要措施。在Linux环境下,实现MySQL数据库的自动定时备份可以通过多种方式完成。本文将介绍如何使用`cron`定时任务和`mysqldump`工具来实现MySQL数据库的每日自动备份。
153 3
|
2月前
|
监控 关系型数据库 MySQL
Linux环境下MySQL数据库自动定时备份策略
在Linux环境下,MySQL数据库的自动定时备份是确保数据安全和可靠性的重要措施。通过设置定时任务,我们可以每天自动执行数据库备份,从而减少人为错误和提高数据恢复的效率。本文将详细介绍如何在Linux下实现MySQL数据库的自动定时备份。
70 3
|
2月前
|
Go 计算机视觉
在Golang高并发环境中如何进行协程同步?
在此示例中,使用互斥锁来保护对共享计数器变量 c 的访问,确保并发的 HTTP 请求不会产生数据竞争。
49 3
|
3月前
|
NoSQL Java Redis
京东双十一高并发场景下的分布式锁性能优化
【10月更文挑战第20天】在电商领域,尤其是像京东双十一这样的大促活动,系统需要处理极高的并发请求。这些请求往往涉及库存的查询和更新,如果处理不当,很容易出现库存超卖、数据不一致等问题。
79 1