PHP内核探索之PHP中的哈希表

简介:

在PHP内核中,其中一个很重要的数据结构就是HashTable。我们常用的数组,在内核中就是用HashTable来实现。那么,PHP的HashTable是怎么实现的呢?最近在看HashTable的数据结构,但是算法书籍里面没有具体的实现算法,刚好最近也在阅读PHP的源码,于是参考PHP的HashTable的实现,自己实现了一个简易版的HashTable,总结了一些心得,下面给大家分享一下。

笔者github上有一个简易版的HashTable的实现:HashTable实现

另外,我在github有对PHP源码更详细的注解。感兴趣的可以围观一下,给个star。PHP5.4源码注解。可以通过commit记录查看已添加的注解。

HashTable的介绍

哈希表是实现字典操作的一种有效数据结构。

定义

简单地说,HashTable(哈希表)就是一种键值对的数据结构。支持插入,查找,删除等操作。在一些合理的假设下,在哈希表中的所有操作的时间复杂度是O(1)(对相关证明感兴趣的可以自行查阅)。

实现哈希表的关键

在哈希表中,不是使用关键字做下标,而是通过哈希函数计算出key的哈希值作为下标,然后查找/删除时再计算出key的哈希值,从而快速定位元素保存的位置。

在一个哈希表中,不同的关键字可能会计算得到相同的哈希值,这叫做“哈希冲突”,就是处理两个或多个键的哈希值相同的情况。解决哈希冲突的方法有很多,开放寻址法,拉链法等等。

因此,实现一个好的哈希表的关键就是一个好的哈希函数和处理哈希冲突的方法。

Hash函数

判断一个哈希算法的好坏有以下四个定义: > * 一致性,等价的键必然产生相等的哈希值; > * 高效性,计算简便; > * 均匀性,均匀地对所有的键进行哈希。

哈希函数建立了关键值与哈希值的对应关系,即:h = hash_func(key)。对应关系见下图:

hash-exam

设计一个完美的哈希函数就交由专家去做吧,我们只管用已有的较成熟的哈希函数就好了。PHP内核使用的哈希函数是time33函数,又叫DJBX33A,其实现如下:


 
 
  1. static inline ulong zend_inline_hash_func(const char *arKey, uint nKeyLength) 
  2.          register ulong hash = 5381
  3.  
  4.         /* variant with the hash unrolled eight times */ 
  5.         for (; nKeyLength >= 8; nKeyLength -= 8) { 
  6.             hash = ((hash << 5) + hash) + *arKey++; 
  7.             hash = ((hash << 5) + hash) + *arKey++; 
  8.             hash = ((hash << 5) + hash) + *arKey++; 
  9.             hash = ((hash << 5) + hash) + *arKey++; 
  10.             hash = ((hash << 5) + hash) + *arKey++; 
  11.             hash = ((hash << 5) + hash) + *arKey++; 
  12.             hash = ((hash << 5) + hash) + *arKey++; 
  13.             hash = ((hash << 5) + hash) + *arKey++; 
  14.     } 
  15.  
  16.     switch (nKeyLength) { 
  17.         case 7: hash = ((hash << 5) + hash) + *arKey++; /* fallthrough... */ 
  18.         case 6: hash = ((hash << 5) + hash) + *arKey++; /* fallthrough... */ 
  19.         case 5: hash = ((hash << 5) + hash) + *arKey++; /* fallthrough... */ 
  20.         case 4: hash = ((hash << 5) + hash) + *arKey++; /* fallthrough... */ 
  21.         case 3: hash = ((hash << 5) + hash) + *arKey++; /* fallthrough... */ 
  22.         case 2: hash = ((hash << 5) + hash) + *arKey++; /* fallthrough... */ 
  23.         case 1: hash = ((hash << 5) + hash) + *arKey++; break
  24.         case 0break
  25.         EMPTY_SWITCH_DEFAULT_CASE() 
  26.     } 
  27.     return hash; 

注:函数使用了一个8次循环+switch来实现,是对for循环的优化,减少循环的运行次数,然后在switch里面执行剩下的没有遍历到的元素。

拉链法

将所有具有相同哈希值的元素都保存在一条链表中的方法叫拉链法。查找的时候通过先计算key对应的哈希值,然后根据哈希值找到对应的链表,最后沿着链表顺序查找相应的值。 具体保存后的结构图如下:

hashtable-exam

PHP的HashTable结构

简单地介绍了哈希表的数据结构之后,继续看看PHP中是如何实现哈希表的。


 
 
  1. typedef struct _hashtable { 
  2.           uint nTableSize; 
  3.           uint nTableMask; 
  4.           uint nNumOfElements; 
  5.           ulong nNextFreeElement; 
  6.           Bucket *pInternalPointer; 
  7.           Bucket *pListHead; 
  8.           Bucket *pListTail;  
  9.           Bucket **arBuckets; 
  10.           dtor_func_t pDestructor; 
  11.           zend_bool persistent; 
  12.           unsigned char nApplyCount; 
  13.           zend_bool bApplyProtection; 
  14.           #if ZEND_DEBUG 
  15.                int inconsistent; 
  16.           #endif 
  17. } HashTable; 
  • nTableSize,HashTable的大小,以2的倍数增长

  • nTableMask,用在与哈希值做与运算获得该哈希值的索引取值,arBuckets初始化后永远是nTableSize-1

  • nNumOfElements,HashTable当前拥有的元素个数,count函数直接返回这个值

  • nNextFreeElement,表示数字键值数组中下一个数字索引的位置

  • pInternalPointer,内部指针,指向当前成员,用于遍历元素

  • pListHead,指向HashTable的第一个元素,也是数组的第一个元素

  • pListTail,指向HashTable的最后一个元素,也是数组的最后一个元素。与上面的指针结合,在遍历数组时非常方便,比如reset和endAPI

  • arBuckets,包含bucket组成的双向链表的数组,索引用key的哈希值和nTableMask做与运算生成

  • pDestructor,删除哈希表中的元素使用的析构函数

  • persistent,标识内存分配函数,如果是TRUE,则使用操作系统本身的内存分配函数,否则使用PHP的内存分配函数

  • nApplyCount,保存当前bucket被递归访问的次数,防止多次递归

  • bApplyProtection,标识哈希表是否要使用递归保护,默认是1,要使用

举一个哈希与mask结合的例子:

例如,”foo”真正的哈希值(使用DJBX33A哈希函数)是193491849。如果我们现在有64容量的哈希表,我们明显不能使用它作为数组的下标。取而代之的是通过应用哈希表的mask,然后只取哈希表的低位。

hash           |        193491849  |     0b1011100010000111001110001001
& mask         | &             63  | &   0b0000000000000000000000111111
----------------------------------------------------------------------
= index        | = 9               | =   0b0000000000000000000000001001

因此,在哈希表中,foo是保存在arBuckets中下标为9的bucket向量中。

bucket结构体的定义


 
 
  1. typedef struct bucket { 
  2.      ulong h; 
  3.      uint nKeyLength; 
  4.      void *pData; 
  5.      void *pDataPtr; 
  6.      struct bucket *pListNext; 
  7.      struct bucket *pListLast; 
  8.      struct bucket *pNext; 
  9.      struct bucket *pLast; 
  10.      const char *arKey; 
  11. } Bucket; 
  • h,哈希值(或数字键值的key

  • nKeyLength,key的长度

  • pData,指向数据的指针

  • pDataPtr,指针数据

  • pListNext,指向HashTable中的arBuckets链表中的下一个元素

  • pListLast,指向HashTable中的arBuckets链表中的上一个元素

  • pNext,指向具有相同hash值的bucket链表中的下一个元素

  • pLast,指向具有相同hash值的bucket链表中的上一个元素

  • arKey,key的名称

PHP中的HashTable是采用了向量加双向链表的实现方式,向量在arBuckets变量保存,向量包含多个bucket的指针,每个指针指向由多个bucket组成的双向链表,新元素的加入使用前插法,即新元素总是在bucket的第一个位置。由上面可以看到,PHP的哈希表实现相当复杂。这是它使用超灵活的数组类型要付出的代价。

一个PHP中的HashTable的示例图如下所示:

php-hash-table-exam

HashTable相关API

  • zend_hash_init

  • zend_hash_add_or_update

  • zend_hash_find

  • zend_hash_del_key_or_index

zend_hash_init

函数执行步骤

  • 设置哈希表大小

  • 设置结构体其他成员变量的初始值 (包括释放内存用的析构函数pDescructor)

详细代码注解点击:zend_hash_init源码

注:

1、pHashFunction在此处并没有用到,php的哈希函数使用的是内部的zend_inline_hash_func

2、zend_hash_init执行之后并没有真正地为arBuckets分配内存和计算出nTableMask的大小,真正分配内存和计算nTableMask是在插入元素时进行CHECK_INIT检查初始化时进行。

zend_hash_add_or_update

函数执行步骤

  • 检查键的长度

  • 检查初始化

  • 计算哈希值和下标

  • 遍历哈希值所在的bucket,如果找到相同的key且值需要更新,则更新数据,否则继续指向bucket的下一个元素,直到指向bucket的最后一个位置

  • 为新加入的元素分配bucket,设置新的bucket的属性值,然后添加到哈希表中

  • 如果哈希表空间满了,则重新调整哈希表的大小

函数执行流程图

zend_hash_add_or_update

CONNECT_TO_BUCKET_DLLIST是将新元素添加到具有相同hash值的bucket链表。

CONNECT_TO_GLOBAL_DLLIST是将新元素添加到HashTable的双向链表。

详细代码和注解请点击:zend_hash_add_or_update代码注解

zend_hash_find

函数执行步骤

  • 计算哈希值和下标

  • 遍历哈希值所在的bucket,如果找到key所在的bucket,则返回值,否则,指向下一个bucket,直到指向bucket链表中的最后一个位置

详细代码和注解请点击:zend_hash_find代码注解

zend_hash_del_key_or_index

函数执行步骤

  • 计算key的哈希值和下标

  • 遍历哈希值所在的bucket,如果找到key所在的bucket,则进行第三步,否则,指向下一个bucket,直到指向bucket链表中的最后一个位置

  • 如果要删除的是第一个元素,直接将arBucket[nIndex]指向第二个元素;其余的操作是将当前指针的last的next执行当前的next

  • 调整相关指针

  • 释放数据内存和bucket结构体内存

详细代码和注解请点击:zend_hash_del_key_or_index代码注解

性能分析

PHP的哈希表的优点:PHP的HashTable为数组的操作提供了很大的方便,无论是数组的创建和新增元素或删除元素等操作,哈希表都提供了很好的性能,但其不足在数据量大的时候比较明显,从时间复杂度和空间复杂度看看其不足。

不足如下:

  • 保存数据的结构体zval需要单独分配内存,需要管理这个额外的内存,每个zval占用了16bytes的内存;

  • 在新增bucket时,bucket也是额外分配,也需要16bytes的内存;

  • 为了能进行顺序遍历,使用双向链表连接整个HashTable,多出了很多的指针,每个指针也要16bytes的内存;

  • 在遍历时,如果元素位于bucket链表的尾部,也需要遍历完整个bucket链表才能找到所要查找的值

PHP的HashTable的不足主要是其双向链表多出的指针及zval和bucket需要额外分配内存,因此导致占用了很多内存空间及查找时多出了不少时间的消耗。

后续

上面提到的不足,在PHP7中都很好地解决了,PHP7对内核中的数据结构做了一个大改造,使得PHP的效率高了很多,因此,推荐PHP开发者都将开发和部署版本更新吧。看看下面这段PHP代码:


 
 
  1. <?php 
  2. $size = pow(216);  
  3.  
  4. $startTime = microtime(true); 
  5. $array = array(); 
  6. for ($key = 0, $maxKey = ($size - 1) * $size; $key <= $maxKey; $key += $size) { 
  7.     $array[$key] = 0
  8. $endTime = microtime(true); 
  9. echo '插入 ', $size, ' 个恶意的元素需要 ', $endTime - $startTime, ' 秒'"\n"
  10.  
  11. $startTime = microtime(true); 
  12. $array = array(); 
  13. for ($key = 0, $maxKey = $size - 1; $key <= $maxKey; ++$key) { 
  14.     $array[$key] = 0
  15. $endTime = microtime(true); 
  16. echo '插入 ', $size, ' 个普通元素需要 ', $endTime - $startTime, ' 秒'"\n"

上面这个demo是有多个hash冲突时和无冲突时的时间消耗比较。笔者在PHP5.4下运行这段代码,结果如下

插入 65536 个恶意的元素需要 43.72204709053 秒

插入 65536 个普通元素需要 0.009843111038208 秒

而在PHP7上运行的结果:

插入 65536 个恶意的元素需要 4.4028408527374 秒

插入 65536 个普通元素需要 0.0018510818481445 秒

可见不论在有冲突和无冲突的数组操作,PHP7的性能都提升了不少,当然,有冲突的性能提升更为明显。至于为什么PHP7的性能提高了这么多,值得继续深究。


作者:风满楼

来源:51CTO

相关文章
|
14天前
|
存储 监控 算法
单位电脑监控软件中 PHP 哈希表算法的深度剖析与理论探究
数字化办公的时代背景下,单位电脑监控软件已成为企业维护信息安全、提升工作效率的关键工具。此类软件可全面监测员工的电脑操作行为,收集海量数据,故而高效管理和处理这些数据显得尤为重要。数据结构与算法在此过程中发挥着核心作用。本文将聚焦于哈希表这一在单位电脑监控软件中广泛应用的数据结构,并通过 PHP 语言实现相关功能,为优化单位电脑监控软件提供技术支持。
34 3
|
20天前
|
存储 监控 算法
论内网电脑监控软件中 PHP 哈希表算法的深度剖析与探究
当代企业网络管理体系中,内网电脑监控软件占据着关键地位。其功能涵盖对员工电脑操作行为的实时监测,以此维护企业信息安全,同时助力企业优化网络资源配置,提升整体工作效能。在构建内网电脑监控软件的诸多技术中,数据结构与算法构成了核心支撑体系。本文聚焦于哈希表这一重要数据结构,深入剖析其在 PHP 语言环境下,如何为内网电脑监控软件的高效运作提供助力,并通过详实的代码示例予以阐释。
34 3
|
11月前
|
存储 缓存 自然语言处理
深入PHP内核:Opcode缓存与性能优化
【5月更文挑战第31天】 在提升PHP应用性能的众多策略中,Opcode缓存技术以其显著的性能提升效果而广受关注。本文旨在深入探讨PHP的Opcode缓存机制,解析其对性能提升的影响,并讨论如何通过配置和优化实践来充分利用Opcode缓存。文章将首先介绍Opcode的概念及其在PHP执行过程中的作用,然后分析几种流行的Opcode缓存解决方案,最后提供针对性的优化建议,帮助开发者实现高效的PHP应用。
|
11月前
|
存储 缓存 PHP
深入PHP内核:理解Zend Engine与Opcode缓存
【5月更文挑战第30天】 在PHP的开发世界中,性能优化是一个永恒的话题。随着现代Web应用的复杂性日益增加,仅仅依靠代码层面的优化已经远远不够。本文将深入探讨PHP的执行心脏——Zend Engine,以及如何通过Opcode缓存机制提升PHP应用的执行效率。我们将透过对Zend Engine工作原理的分析,了解Opcode缓存的实现原理,并通过实例来展示其对性能提升的显著影响。
|
11月前
|
缓存 算法 PHP
深入PHP内核:探索高性能代码优化策略
【5月更文挑战第27天】 在本文中,我们将深入探讨PHP的内核机制,并分析如何通过理解其工作原理来优化我们的代码。文章将聚焦于几个关键领域,包括解释器执行流程、内存管理、以及代码编写最佳实践等。我们的目标是为开发者提供实用的指导,帮助他们写出更加高效和稳定的PHP应用程序。
|
11月前
|
存储 缓存 负载均衡
深入PHP内核:探索Opcode缓存对性能的影响
在现代Web开发中,提升应用性能始终是开发者追求的目标之一。PHP作为一种广泛使用的服务端脚本语言,其执行效率对网站性能有着直接的影响。本文将深入探讨PHP的Opcode缓存机制,分析Opcode缓存如何优化PHP代码执行流程,减少服务器资源消耗,并通过实验数据展示启用Opcode缓存对性能的具体影响。我们将比较不同的Opcode缓存方案,并讨论它们在实际项目中的适用场景与潜在限制。
|
11月前
|
存储 缓存 自然语言处理
深入PHP内核:理解Opcode缓存与性能优化
【5月更文挑战第14天】 在动态语言的世界里,PHP一直因其高性能的执行效率和广泛的社区支持而备受青睐。随着Web应用的复杂性增加,对性能的要求也越来越高。本文将探讨PHP的Opcode缓存机制,解析其对性能提升的贡献,并展示如何通过配置和使用不同的Opcode缓存方案来进一步优化PHP应用的性能。我们将深入到PHP的核心,了解Opcode是如何生成的,以及它如何影响最终的执行效率。
|
11月前
|
存储 缓存 自然语言处理
深入PHP内核:理解OPcache的工作原理与优化实践
【5月更文挑战第6天】 在现代Web开发中,提升性能和响应速度是持续追求的目标。PHP作为一种广泛使用的服务端脚本语言,其执行效率至关重要。本文将深入探索PHP的OPcache(优化器缓存)组件,解析其如何改善PHP的性能表现。通过剖析OPcache的工作机制,我们将讨论有效的配置策略以及实践中的最佳优化方法,旨在帮助开发者充分理解并利用OPcache来提升应用性能。
|
11月前
|
数据库连接 PHP
深入PHP内核:理解Zend Engine和PHP生命周期
【5月更文挑战第4天】 在本文中,我们将探讨PHP的核心——Zend Engine。我们会详细解释Zend Engine的工作原理,以及它如何驱动PHP代码的执行。此外,我们还将深入讨论PHP生命周期的各个阶段,包括从请求开始到输出结果的整个过程。这篇文章将为你提供一个深入的理解,关于PHP如何处理你的代码,以及它在背后是如何运作的。
216 3
|
11月前
|
存储 缓存 自然语言处理
深入PHP内核:探索Opcode缓存机制
【5月更文挑战第1天】 在动态语言如PHP的执行过程中,每次脚本被请求时都需要经过一系列复杂的解析和编译步骤。为了优化这一过程并提高性能,PHP引入了Opcode缓存机制。本文将详细探讨Opcode的概念、作用以及它如何显著提升PHP应用的执行效率。我们将从缓存原理出发,分析几种常见的Opcode缓存工具,并通过实例说明如何在实际项目中实现和优化缓存策略。