哈希表(重要)

本文涉及的产品
函数计算FC,每月15万CU 3个月
简介: 哈希表(重要)

概念

顺序结构以及二叉搜索树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为O(N),二叉搜索树中为树的高度,即O(log2N),搜索的效率取决于搜索过程中元素的比较次数。


理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素。如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系,那么在查找时通过该函数可以很快找到该元素。

当向该结构中:


插入元素

根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放


搜索元素

对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较,若 关键码相等,则搜索成功

该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(Hash Table)(或者称散列表)


例如:数据集合{1,7,6,4,5,9};

哈希函数设置为:hash(key) = key % capacity; capacity为存储元素底层空间总的大小。


其实哈希表的底层是一个数组,有些书上也称之为哈希桶


哈希函数中每次取余后的值为我们所要在哈希表中存储的位置,例如1就在1%10=1的位置处存放这个值即可.取1的时候也直接在1下标处取即可,所以在哈希表中增删查改的时间复杂度都能达到O(1)

2.png

用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快 但是此时就要注意一个问题了,假设此时我们要存储44这个元素,发现44%10=4,44同样也可以放到下标为4的这个位置,但是我们发现4这个下标位置处其实是有元素的,此时就发生了哈希冲突,所以当发生了哈希冲突的时候,我们就需要做两件事情,第一是在冲突发生前避免哈希冲突,第二点是如果发生了哈希冲突就要去解决哈希冲突.

面试中也会经常去问你是如何解决哈希冲突的.


哈希冲突

概念

不同的关键码,使用一个哈希函数,哈希到了同一个位置,这种现象称为哈希冲突或者哈希碰撞

一般来说我们都想去避免哈希冲突,但是冲突是无法全部避免的,最终我们仍要去解决哈希冲突,先来看如何避免哈希冲突.


哈希冲突的避免(两种方式)

第一种方式:设计精妙的哈希函数

其实当数据的个数大于我们数组长度的时候,就一定会发生哈希冲突,冲突的发生是必然的,但我们能做的应该是尽量的降低冲突率。


哈希函数的设计

引起哈希冲突的一个原因可能是:**哈希函数设计不够合理。


哈希函数设计原则

哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有m个地址时,其值域必须在0到m-1 之间

哈希函数计算出来的地址能均匀分布在整个空间中

哈希函数应该比较简单

常见的哈希函数

1.直接定制法–(常用)

取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B 优点:简单、均匀 缺点:需要事先知道关键字的分布情况 使用场景:适合查找比较小且连续的情况 面试题:字符串中第一个只出现一次字符

2.除留余数法--(最常用的方法)

设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:

Hash(key) = key% p(p<=m),将关键码转换成哈希地址

3.平方取中法–(了解)

假设关键字为1234,对它平方就是1522756,抽取中间的3位227作为哈希地址; 再比如关键字为4321,对它平方就是18671041,抽取中间的3位671(或710)作为哈希地址 平方取中法比较适合:不知道关键字的分布,而位数又不是很大的情况

4.折叠法–(了解)

折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些),然后将这几部分叠加求和, 并按散列表表长,取后几位作为散列地址。

折叠法适合事先不需要知道关键字的分布,适合关键字位数比较多的情况

5.随机数法–(了解)

选择一个随机函数,取关键字的随机函数值为它的哈希地址,即H(key) = random(key),其中random为随机数函数。

通常应用于关键字长度不等时采用此法

6.数学分析法–(了解)

设有n个d位数,每一位可能有r种不同的符号,这r种不同的符号在各位上出现的频率不一定相同,可能在某 些位上分布比较均匀,每种符号出现的机会均等,在某些位上分布不均匀只有某几种符号经常出现。可根据 散列表的大小,选择其中各种符号分布均匀的若干位作为散列地址。例如:

2.png

假设要存储某家公司员工登记表,如果用手机号作为关键字,那么极有可能前7位都是相同的,那么我们可以选择后面的四位作为散列地址,如果这样的抽取工作还容易出现 冲突,还可以对抽取出来的数字进行反转(如1234改成4321)、右环位移(如1234改成4123)、左环移位、前两数与后两数叠加(如1234改成12+34=46)等方 法。

数字分析法通常适合处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布较均匀的情况

注意:哈希函数设计的越精妙,产生哈希冲突的可能性就越低,但是无法避免哈希冲突


第二种方式:负载因子调节(重点掌握)


负载因子和冲突率的关系粗略演示

2.png

可以看到的是,当我们想让冲突率越小的话,负载因子也要越来越小,

再来看之前的公式:

2.png

已知哈希表中已有的关键字个数是不可变的,那么为了我们的负载因子变小,我们能调整的就只有哈希表中的数组的大小了,也就是我们散列表的长度,散列表长度越大,负载因子越小.

另外我们之前所了解到的HashMap的底层耶斯==


哈希冲突的解决(两种方式)

解决哈希冲突两种常见的方法是:闭散列和开散列


闭散列

闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存放到冲突位置中的“下一个” 空位置中去。那如何寻找下一个空位置呢?有两种方法


方法1:线性探测

比如上面的场景,现在需要插入元素44,先通过哈希函数计算哈希地址,下标为4,因此44理论上应该插在该位置,但是该位置已经放了值为4的元素,即发生哈希冲突。


线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。


线性探测的插入操作

例如插入44的时候

通过哈希函数获取待插入元素在哈希表中的位置,44%10=4,此时4下标的位置有4这个元素,那么就直接从当前4下标的位置向后遍历去寻找空的位置将44这个元素插入进去,如下图所示此时插入到8这个位置.

2.png


总结:如果该位置中没有元素则直接插入新元素,如果该位置中有元素发生哈希冲突,使用线性探测找到 下一个空位置,插入新元素


线性探测的删除操作

采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素会影响其他元素的搜索。比如删除元素4,如果直接删除掉,44查找起来可能会受影响。因此线性探测采用标记的伪删除法来删除一个元素,就是标记一下4删除掉了,但是其实没有删除掉.


方法2:二次探测

线性探测的缺陷是产生冲突的数据堆积在一块,举个例子

我们现在要插入的不但有44,还有34,54,64

2.png

按照之前的线性探测,这几个数据分别本来都来插入到4下标位置处,只不过发生了哈希冲突,就依次往后寻找插入点,插入完毕后如下所示:

2.png

我们会发现冲突的元素全部都在一起了.

而我们的二次探测解决的问题就是不让我们冲突的元素挤在一起.

因此二次探测为了避免该问题,找下一个空位置的方法为:

2.png

这里我们解释一下这个公式:第一次发生冲突跳$1^{2}$个,第二次发生冲突跳$2^{2}$个,第三次发生冲突跳$3^{2}$个,依次往下递增,所以34作为我们的第一个发生冲突的,此时他所要去的下一个位置为(4+1)%10=5,也就是下标5处,44作为我们第二个发生冲突的,此时他所要去的下一个位置为(4+4)%10=8,也就是下标8处,54作为我们第三个发生冲突的,此时他所要去的下一个位置为(4+9)%10=3,也就是下标3处,我们会发现我们尽量将冲突的元素在散列表中散开.如下图所示:

2.png

研究表明:当表的长度为质数且表装载因子a不超过0.5时,新的表项一定能够插入,而且任何一个位置都不会被探查两次。因此只要表中有一半的空位置,就不会存在表满的问题。在搜索时可以不考虑表装满的情 况,但在插入时必须确保表的装载因子a不超过0.5,如果超出必须考虑增容。

因此:闭散列最大的缺陷就是空间利用率比较低,这也是哈希的缺陷。


开散列(非常重要)

开散列也是我们哈希表底层使用的方法,所以非常重要


开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。


因为HashMap和HashSet的底部都是哈希桶,即一个数组,那么我们就拿HahMap来举例,看看其底层是怎么通过开散列的方式解决哈希冲突的:


首先我们知道开散列的方法是将具有相同地址的关键码(关键码就是要插入到HashMap中的数据)归到一个下标处,然后将这些具有相同地址的关键码通过单链表的形式串起来,然后将各链表的头结点存储在哈希表中,来看示意图:

假设此时我们创建了一个map对象后,向我们的map集合中放入两个键值对,键值对中存储的值分别为2,12,通过之前的哈希函数我们可以知道2%10=2,12%10=2(注意此处是通过键值对中的key来找到插入位置的),最终都会放到数组的2下标处。

2.png


此时需要注意的是,当2插入到我们的对应位置后,作为链表的头节点,然后12要插入到相同位置的时候,采取的是尾插法,这是jdk1.8开始规定的,并且需要注意的是,我们的链表当长度超过8的时候,这个链表会蜕变为红黑树


性能分析

哈希表的插入/删除/查找时间复杂度是 O(1)


和 java 类集的关系

1.HashMap 和 HashSet 即 java 中利用哈希表实现的 Map 和 Set

2.java 中使用的是哈希桶方式解决冲突的

3.java 会在冲突链表长度大于一定阈值后,将链表转变为搜索树(红黑树)

4.java 中计算哈希值实际上是调用的类的 hashCode 方法,进行 key 的相等性比较是调用 key 的 equals 方法。所以如果要用自定义类作为 HashMap 的 key 或者 HashSet 的值,必须覆写 hashCode 和 equals 方法,而且要做到 equals 相等的对象,hashCode 一定是一致的。


相关实践学习
【AI破次元壁合照】少年白马醉春风,函数计算一键部署AI绘画平台
本次实验基于阿里云函数计算产品能力开发AI绘画平台,可让您实现“破次元壁”与角色合照,为角色换背景效果,用AI绘图技术绘出属于自己的少年江湖。
从 0 入门函数计算
在函数计算的架构中,开发者只需要编写业务代码,并监控业务运行情况就可以了。这将开发者从繁重的运维工作中解放出来,将精力投入到更有意义的开发任务上。
相关文章
|
数据库 索引
深入探索数据库索引技术:回表与索引下推解析
【10月更文挑战第15天】在数据库查询优化的领域中,回表和索引下推是两个核心概念,它们对于提高查询性能至关重要。本文将详细解释这两个术语,并探讨它们在数据库操作中的作用和影响。
234 3
|
缓存 NoSQL 关系型数据库
【中间件】Redis与MySQL双写一致性如何保证?--缓存和数据库在双写场景下一致性是如何保证的
【中间件】Redis与MySQL双写一致性如何保证?--缓存和数据库在双写场景下一致性是如何保证的
645 0
【中间件】Redis与MySQL双写一致性如何保证?--缓存和数据库在双写场景下一致性是如何保证的
|
存储 NoSQL Java
redis-学习笔记(string)
redis-学习笔记(string)
114 0
|
5天前
|
云安全 人工智能 安全
AI被攻击怎么办?
阿里云提供 AI 全栈安全能力,其中对网络攻击的主动识别、智能阻断与快速响应构成其核心防线,依托原生安全防护为客户筑牢免疫屏障。
|
15天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
9天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
589 212
|
4天前
|
编解码 Linux 数据安全/隐私保护
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
233 138
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
827 60