唯一ID生成原理与PHP实现-雪花算法

简介: 唯一ID生成原理与PHP实现-雪花算法

snowflake算法

虽然PHP提供了一个生成唯一ID的函数uniqid(),但这个函数真的可以生成唯一ID吗?我们来看看uniqid()的具体实现:

PHP_FUNCTION(uniqid)

{

   ...

   gettimeofday((struct timeval *) &tv, (struct timezone *) NULL);

sec = (int) tv.tv_sec;

   usec = (int) (tv.tv_usec % 0x100000);

spprintf(&uniqid, 0, "%s%08x%05x", prefix, sec, usec);

RETURN_STRING(uniqid, 0);

}

从代码可以看出,uniqid()是通过微妙级时间戳来实现的,在分布式高并发的情况下,ID的重复率是很高的,所以我们不能使用uniqid()来生成唯一ID。

snowflake算法

既然不能单纯靠时间戳来保证唯一性,那么是不是可以增加以下特征值来保证呢?为此,Twitter公司发明了snowflake算法。snowflake算法的核心原理是把一个64位的整数分为3个部分,如下图:

image.png

如上图所示,高端的第一位不使用,接着的41位字节用于存储毫秒级的时间戳,紧跟着时间戳的10位作为机器ID,而最后12位为序列号。

  1. 对于不同的机器来说,可以为每一台机器分配一个唯一的机器ID,这样就可以保证每台机器锁生成的ID不会重复。
  2. 对于同一台机器,如果同一时刻多个客户端并发请求,那么可以通过增加序列号来保证ID唯一性。

默认情况下41位的时间戳可以支持该算法使用到2082年(需要通过减去一个起始时间戳),10位的工作机器ID可以支持1023台机器,12位的序列号支持1毫秒产生4095个自增序列ID。

也就是说1台机器1秒可以承受4095000个并发,可以胜任任何场景。snowflake算法的代码实现大概如下:

static uint64_t last_ts = 0;

static uint64_t sequence = 0;

static uint64_t datacenter_id = 0;

// 获取毫秒时间戳

uint64_t current_timestamp()

{

   struct timeval tv;

   uint64_t retval;

if (gettimeofday(&tv, NULL) == -1) {

       return 0ULL;

   }

retval = (u64_t)tv.tv_sec * 1000ULL +

            (u64_t)tv.tv_usec / 1000ULL;

return retval;

}

// 如果在同一毫秒内超过了并发现在, 那么等待下一毫秒

uint64_t skip_next_millis()

{

   uint64_t ts;

while (1) {

       ts = current_timestamp();

       if (ts > last_ts) {

           break;

       }

   }

return ts;

}

// 获取下一个ID

uint64_t get_next_id()

{

   uint64_t retval, ts;

ts = current_timestamp();

if (ts == last_ts) { // 同一毫秒内多个并发

       sequence = (sequence + 1) & 0xFFF;// 增加序列号计数器

       if (sequence == 0) {  // 计数器用完

           ts = skip_next_millis();// 等待下一毫秒

       }

   } else {

       sequence = 0;// 清空序列号计数器

   }

last_ts = ts;

retval = (ts << 22) | (datacenter_id << 12) | sequence;

return retval;

}

PHP实现唯一ID生成函数

严格来说使用PHP是不能实现snowflake算法的,这是因为PHP的运行机制导致的。一般一台机器会启动多个PHP进程,而且进程之间是不能共享内存的,就是说多个PHP进程之间不能使用同一个序列号,这样就会导致不同进程生成的ID可能会重复。而且每次请求完,PHP都会释放本次请求的所有资源,那么就不能记录最后一次时间戳和序列号计数器的值(虽然可以使用文件或者memcached之类实现,当这样性能就会降低很多)。所以说使用PHP是不能实现snowflake算法的。

不能使用PHP代码实现snowflake算法,但是可以通过PHP扩展和php-cli运行模式下来实现,下图是PHP-FPM的运行机制:

image.png

从上图可以看出,在创建worker进程之前先会调用每个扩展的init()函数(PHP_MINIT_FUNCTION函数),所以我们可以在init()函数创建一块共享内存,然后每个worker进程就可以共用这块内存(因为fork之前创建的共享内存可以在子进程中共用)。

因为不同的进程并发访问共享内存可能会导致数据不一致的问题,所以必须解决资源竞争的问题,解决资源竞争最常用的方法就是使用锁。

进程间一般使用的锁有:信号量和自旋锁。信号量与自旋锁的不同之处是,信号量会发生进程上下文切换,而自旋锁不会。

当然这两种锁都可以解决资源竞争问题,但是相对于生成唯一ID这种场景,使用自旋锁会有更好的性能,这是因为生成ID这个过程非常短,而自旋锁锁不需要切换上下文。

自旋锁

自旋锁的原理是不断测试锁是否能够被上锁,如果能够上锁就进行上锁操作,否则就不断重复上面的操作。下面代码是一个简单的实现:

void spin_lock(atomic_t *lock, int id)

{

   int i, n;

for ( ;; ) {

if (*lock == 0 &&

           __sync_bool_compare_and_swap(lock, 0, id)) {

           return;

       }

if (ncpu > 1) {

for (n = 1; n < 129; n << 1) {

for (i = 0; i < n; i++) {

                   __asm("pause");

               }

if (*lock == 0 &&

                   __sync_bool_compare_and_swap(lock, 0, id)) {

                   return;

               }

           }

       }

sched_yield();

   }

}

__sync_bool_compare_and_swap(var, old, new)函数是一个原子性操作,作用就是比较var与old的值,如果相等就把var的值改为new,如果不相等就继续进行这个操作直到成功为止。这里有个小技巧,就是当长时间获取不到锁的情况下,我们会调用sched_yield()系统调用让出CPU,从而避免过度使用CPU资源。

总结

snowflake算法可以有效的生成唯一ID,而且通过配置机器ID可以很好地支持分布式环境。本文介绍了怎么使用PHP扩展来实现snowflake算法,具体实现可以参考本人所写的Atom扩展: https://github.com/liexusong/atom

本文转自:https://mp.weixin.qq.com/s/bagOgzdwLyZv_ITNVnYfoQ

目录
相关文章
|
3月前
|
监控 算法 安全
基于 PHP 语言深度优先搜索算法的局域网网络监控软件研究
在当下数字化时代,局域网作为企业与机构内部信息交互的核心载体,其稳定性与安全性备受关注。局域网网络监控软件随之兴起,成为保障网络正常运转的关键工具。此类软件的高效运行依托于多种数据结构与算法,本文将聚焦深度优先搜索(DFS)算法,探究其在局域网网络监控软件中的应用,并借助 PHP 语言代码示例予以详细阐释。
67 1
|
25天前
|
监控 算法 安全
基于 PHP 的员工电脑桌面监控软件中图像差分算法的设计与实现研究
本文探讨了一种基于PHP语言开发的图像差分算法,用于员工计算机操作行为监控系统。算法通过分块比较策略和动态阈值机制,高效检测屏幕画面变化,显著降低计算复杂度与内存占用。实验表明,相比传统像素级差分算法,该方法将处理时间缩短88%,峰值内存使用量减少70%。文章还介绍了算法在工作效率优化、信息安全防护等方面的应用价值,并分析了数据隐私保护、算法准确性及资源消耗等挑战。未来可通过融合深度学习等技术进一步提升系统智能化水平。
24 1
|
1月前
|
存储 监控 算法
内网监控桌面与 PHP 哈希算法:从数据追踪到行为审计的技术解析
本文探讨了内网监控桌面系统的技术需求与数据结构选型,重点分析了哈希算法在企业内网安全管理中的应用。通过PHP语言实现的SHA-256算法,可有效支持软件准入控制、数据传输审计及操作日志存证等功能。文章还介绍了性能优化策略(如分块哈希计算和并行处理)与安全增强措施(如盐值强化和动态更新),并展望了哈希算法在图像处理、网络流量分析等领域的扩展应用。最终强调了构建完整内网安全闭环的重要性,为企业数字资产保护提供技术支撑。
61 2
|
1月前
|
NoSQL 算法 安全
分布式锁—1.原理算法和使用建议
本文主要探讨了Redis分布式锁的八大问题,包括非原子操作、忘记释放锁、释放其他线程的锁、加锁失败处理、锁重入问题、锁竞争问题、锁超时失效及主从复制问题,并提供了相应的优化措施。接着分析了Redis的RedLock算法,讨论其优缺点以及分布式专家Martin对其的质疑。此外,文章对比了基于Redis和Zookeeper(zk)的分布式锁实现原理,包括获取与释放锁的具体流程。最后总结了两种分布式锁的适用场景及使用建议,指出Redis分布式锁虽有性能优势但模型不够健壮,而zk分布式锁更稳定但部署成本较高。实际应用中需根据业务需求权衡选择。
|
2月前
|
存储 监控 算法
公司员工电脑监控软件剖析:PHP 布隆过滤器算法的应用与效能探究
在数字化办公的浪潮下,公司员工电脑监控软件成为企业管理的重要工具,它能够帮助企业了解员工的工作状态、保障数据安全以及提升工作效率。然而,随着监控数据量的不断增长,如何高效地处理和查询这些数据成为了关键问题。布隆过滤器(Bloom Filter)作为一种高效的概率型数据结构,在公司员工电脑监控软件中展现出独特的优势,本文将深入探讨 PHP 语言实现的布隆过滤器算法在该软件中的应用。
61 1
|
3月前
|
机器学习/深度学习 数据采集 算法
短视频到底如何推荐的?深度剖析视频算法推送原理详细且专业的解读-优雅草卓伊凡-【01】短视频算法推荐之数据收集
短视频到底如何推荐的?深度剖析视频算法推送原理详细且专业的解读-优雅草卓伊凡-【01】短视频算法推荐之数据收集
247 12
短视频到底如何推荐的?深度剖析视频算法推送原理详细且专业的解读-优雅草卓伊凡-【01】短视频算法推荐之数据收集
|
2月前
|
存储 监控 算法
单位电脑监控软件中 PHP 哈希表算法的深度剖析与理论探究
数字化办公的时代背景下,单位电脑监控软件已成为企业维护信息安全、提升工作效率的关键工具。此类软件可全面监测员工的电脑操作行为,收集海量数据,故而高效管理和处理这些数据显得尤为重要。数据结构与算法在此过程中发挥着核心作用。本文将聚焦于哈希表这一在单位电脑监控软件中广泛应用的数据结构,并通过 PHP 语言实现相关功能,为优化单位电脑监控软件提供技术支持。
53 3
|
2月前
|
存储 监控 算法
论内网电脑监控软件中 PHP 哈希表算法的深度剖析与探究
当代企业网络管理体系中,内网电脑监控软件占据着关键地位。其功能涵盖对员工电脑操作行为的实时监测,以此维护企业信息安全,同时助力企业优化网络资源配置,提升整体工作效能。在构建内网电脑监控软件的诸多技术中,数据结构与算法构成了核心支撑体系。本文聚焦于哈希表这一重要数据结构,深入剖析其在 PHP 语言环境下,如何为内网电脑监控软件的高效运作提供助力,并通过详实的代码示例予以阐释。
51 3
|
3月前
|
存储 监控 算法
基于 PHP 语言的滑动窗口频率统计算法在公司局域网监控电脑日志分析中的应用研究
在当代企业网络架构中,公司局域网监控电脑系统需实时处理海量终端设备产生的连接日志。每台设备平均每分钟生成 3 至 5 条网络请求记录,这对监控系统的数据处理能力提出了极高要求。传统关系型数据库在应对这种高频写入场景时,性能往往难以令人满意。故而,引入特定的内存数据结构与优化算法成为必然选择。
78 3
|
3月前
|
存储 监控 算法
基于 PHP 二叉搜索树算法的内网行为管理机制探究
在当今数字化网络环境中,内网行为管理对于企业网络安全及高效运营具有至关重要的意义。它涵盖对企业内部网络中各类行为的监测、分析与管控。在内网行为管理技术体系里,算法与数据结构扮演着核心角色。本文将深入探究 PHP 语言中的二叉搜索树算法于内网行为管理中的应用。
46 4

热门文章

最新文章