【图解数据结构】外行人也能看懂的哈希表(中)

简介: 常用英文单词20万个,假设单词平均长度10个字母,平均一个单词占用10字节,那20万英文单词大约占2MB存储空间,这完全可以放在内存。所以我们可以用散列表来存储整个英文单词词典。 当用户输入某个英文单词时,拿用户输入的单词去散列表中查找: 查到,则说明拼写正确 没有查到,则说明拼写可能有误,给予提示 这就能轻松实现快速判断是否存在拼写错误。

缺陷

线性探测法其实存在很大问题。当散列表中数据越多,hash冲突可能性越大,空闲位越少,线性探测时间越久。

极端情况下,可能需探测整个散列表,所以最坏时间复杂度O(n)。

删除和查找时,也可能线性探测整张散列表,才能找到要查找或删除的数据。

二次探测(Quadratic probing)

双重散列(Double hashing)

类似线性探测,线性探测每次探测的步长是1,那它探测的下标序列就是

  • hash(key)+0
  • hash(key)+1
  • hash(key)+2
  • 。。。

二次探测探测的步长就变成了原来的“二次方”,即探测的下标序列是:

  • hash(key)+0
  • hash(key)+12
  • hash(key)+22
  • ……

双重散列就是不仅要使用一个散列函数,而使用一组散列函数:

先用第一个散列函数,如果计算得到的存储位置已被占用,再用第二个散列函数,直到找到空闲位。

不管哪种探测方法,当散列表中空闲位置不多时,散列冲突的概率就会大大提高。为了尽可能保证散列表的操作效率,一般情况下,我们会尽可能保证散列表中有一定比例的空闲槽位。

优点

  • 不像链表法,需要拉很多链表。数据都存在数组中,可有效地利用CPU缓存加快查询速度
  • 序列化也更简单。链表法包含指针,序列化比较麻烦。

缺点

  • 删除数据时,需特殊标记已删除的数据
  • 所有的数据都存储在一个数组中,冲突的代价更高

所以,使用开放寻址法解决冲突的散列表,装载因子的上限不能太大。这也导致这种方法比链表法更浪费内存空间。

当数据量比较小、装载因子小的时候,适合采用开放寻址法。这也是Java中的ThreadLocalMap使用开放寻址法解决散列冲突的原因。

3.2 链表法

相比开放寻址法简单。

散列表中,每个“桶(bucket)”或“槽(slot)”对应一条链表:散列值相同的元素放到相同槽位对应的链表。

image.png

  • 插入时,只需通过hash函数计算对应槽位,将其插入到对应链表,时间复杂度O(1)。

查找、删除

同样通过hash函数计算出对应槽,然后遍历链表查找或删除。

时间复杂度都和链表长度k成正比,即O(k),所以查询的效率并非简单地O(1),若hash函数设计得不好或loadFactor过高,都可能导致散列冲突发生的概率升高,查询效率下降。

对于散列均匀的hash函数,理论上:

k=n/m

其中n表示散列中数据的个数,m表示散列表中“槽”的个数。

优点

  • 对内存的利用率比开放寻址法要高
    因为链表结点可以在需要的时候再创建,并不需要像开放寻址法那样事先申请好。这也是链表优于数组的地方。
  • 对大装载因子的容忍度更高。开放寻址法只能适用装载因子小于1的情况。接近1时,就可能会有大量的散列冲突,导致大量的探测、再散列等,性能会下降很多。但是对于链表法来说,只要散列函数的值随机均匀,即便装载因子变成10,也就是链表的长度变长了而已,虽然查找效率有所下降,但是比起顺序查找还是快很多。

缺点

链表因为要存储指针,所以对于比较小的对象的存储,是比较消耗内存的,还有可能会让内存的消耗翻倍。而且,因为链表中的结点是零散分布在内存中的,不是连续的,所以对CPU缓存是不友好的,这方面对于执行效率也有一定的影响。


存储的是大对象,也就是说要存储的对象的大小远远大于一个指针的大小(4个字节或者8个字节),那链表中指针的内存消耗在大对象面前就可以忽略了。


对链表法稍加改造,可以实现一个更加高效的散列表。那就是,我们将链表法中的链表改造为其他高效的动态数据结构,比如跳表、红黑树。这样,即便出现散列冲突,极端情况下,所有的数据都散列到同一个桶内,那最终退化成的散列表的查找时间也只不过是O(logn)。这样也就有效避免了前面讲到的散列碰撞攻击。

image.png

基于链表的散列冲突处理方法比较适合存储大对象、大数据量的散列表,而且,比起开放寻址法,它更加灵活,支持更多的优化策略,比如用红黑树代替链表。

目录
相关文章
|
12月前
|
算法 Java 数据库
数据结构与算法学习十五:哈希表
这篇文章详细介绍了哈希表的概念、应用实例、实现思路,并提供了使用Java实现的哈希表代码。
195 0
数据结构与算法学习十五:哈希表
|
7月前
|
存储 NoSQL Java
【数据结构进阶】哈希表
哈希表是一种高效的数据结构,通过哈希函数实现数据映射,支持平均O(1)时间复杂度的查找、插入和删除操作。本文详细介绍了哈希表的基本概念、哈希函数的设计(如直接定址法和除留余数法)以及哈希冲突的解决方法(如开放定址法和链地址法)。同时,文章通过代码实例展示了线性探测和链地址法两种哈希表的实现过程,并分析了各自的优缺点。最后总结指出,合理选择哈希函数和冲突解决策略是优化哈希表性能的关键。
448 2
|
10月前
|
数据库
数据结构中二叉树,哈希表,顺序表,链表的比较补充
二叉搜索树,哈希表,顺序表,链表的特点的比较
数据结构中二叉树,哈希表,顺序表,链表的比较补充
|
存储 Java Serverless
【数据结构】哈希表&二叉搜索树详解
本文详细介绍了二叉搜索树和哈希表这两种数据结构。二叉搜索树是一种特殊二叉树,具有左子树节点值小于根节点、右子树节点值大于根节点的特点,并且不允许键值重复。文章给出了插入、删除和搜索等方法的具体实现。哈希表则通过哈希函数将键名映射为数组下标,实现快速查找,其插入、删除和查找操作时间复杂度理想情况下为O(1)。文中还讨论了哈希函数的设计原则、哈希冲突的解决方法及哈希表的实现细节。
249 8
【数据结构】哈希表&二叉搜索树详解
|
12月前
|
存储 缓存 Java
【数据结构】哈希表
【数据结构】哈希表
166 1
|
存储 Java
数据结构中的哈希表(java实现)利用哈希表实现学生信息的存储
这篇文章通过Java代码示例展示了如何实现哈希表,包括定义结点类、链表类、数组存储多条链表,并使用简单的散列函数处理冲突,以及如何利用哈希表存储和查询学生信息。
数据结构中的哈希表(java实现)利用哈希表实现学生信息的存储
|
存储 算法 NoSQL
数据结构和算法——哈希查找冲突处理方法(开放地址法-线性探测、平方探测、双散列探测、再散列,分离链接法)
数据结构和算法——哈希查找冲突处理方法(开放地址法-线性探测、平方探测、双散列探测、再散列,分离链接法)
670 1
|
存储 NoSQL 算法
redis数据结构—哈希表
redis数据结构—哈希表
118 0
|
存储 算法 大数据
深入解析力扣170题:两数之和 III - 数据结构设计(哈希表与双指针法详解及模拟面试问答)
深入解析力扣170题:两数之和 III - 数据结构设计(哈希表与双指针法详解及模拟面试问答)
|
存储 算法
数据结构和算法——了解哈希表(哈希查找、散列的基本思想)
数据结构和算法——了解哈希表(哈希查找、散列的基本思想)
126 0