HashMap的容量为什么一定是2^n?

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: `HashMap` 的容量设计为 `2^n` 主要出于三个考虑:1) 位运算效率高,通过 `(hash & (capacity - 1))` 快速计算索引;2) 元素分布均匀,减少哈希冲突,提高性能;3) 扩容时只需检查最高位,简化重分布过程,提升扩容效率。初始容量为 `1 << 4`(16),扩容以2倍递增。

HashMap 的容量被设计为 2^n,主要有如下几个优势:

  1. 位运算效率:与使用取模(%)操作相比,使用位运算来计算索引位置更加高效。当容量是 2^n 时,计算索引的公式可以从 (hash % capacity) 简化为 (hash & (capacity - 1)),这个操作仅涉及位与运算,比取模操作更快。
  2. 元素分布更加均匀:利用哈希码的低位直接作为数组索引,确保了元素能够被均匀分布在整个 HashMap 中,从而在理想情况下减少了哈希冲突,提高了 HashMap 的整体性能。
  3. 扩容性能更佳HashMap 的初始容量是2^n,扩容也是以 2 倍的形式进行扩容,这样在进行扩容重新分布元素时,我们只需要对参与计算的最高位进行检测,如果为 1 就向高位移动 2^(n-1) 位,为 0 就保持不动。无需重新计算所有 key 的 hash 值再来重新分布。

详解

HashMap 的默认容量是 1 << 4,也就是2^4,也就是16。当我们指定容量大小的时候,如果这个值不是 2^n,HashMap 就会将其处理为 2^n

csharp

代码解读

复制代码

    public HashMap(int initialCapacity) {
        this(initialCapacity, DEFAULT_LOAD_FACTOR);
    }
    
    public HashMap(int initialCapacity, float loadFactor) {
        // 处理初始容量
        this.threshold = tableSizeFor(initialCapacity);
    }

使用 tableSizeFor() 对初始容量进行处理:

ini

代码解读

复制代码

    static final int tableSizeFor(int cap) {
        int n = cap - 1;
        n |= n >>> 1;
        n |= n >>> 2;
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    }

这个方法用于计算给定容量 cap 最接近的、大于或等于该值的 2^n 的数。可能有小伙伴看到这个方法就懵逼了,大明哥用 21 来详细介绍下,它是如何处理得到 32 的。

  • int n = cap - 1:这一步的目的是为了简化后面的位操作n = 21 - 1 = 20,二进制为:10100
  • n |= n >>> 1;
  • 右移一位并进行位或运算,目的是把最高位的 1 右边的第一个位也设置为 1。
  • n >>> 1 右移一位得到 01010 ,然后与 10100 位或运算,得到 11110,为 30。
  • n |= n >>> 2;
  • n >>> 2 右移两位得到 00111,然后与 11110 位或运算,得到 11111,为 32。
  • 由于此时 n 已经全部都是 1 了,所以再进行右移和位或操作,n 保持不变,即 11111,为 32。

然后重复这个过程,分别是 n >>> 4n >>> 8n >>> 16。每一步都将前面步骤中生成的 1 向右扩散,确保从最初的最高位 1 到最低位,所有位都被设置为 1。

为什么 HashMap 要进行这样的操作呢 ?主要有如下三个原因:

  1. 位运算效率:与使用取模(%)操作相比,使用位运算来计算索引位置更加高效。当容量是 2^n 时,计算索引的公式可以从 (hash % capacity) 简化为 (hash & (capacity - 1)),这个操作仅涉及位与运算,比取模操作更快。
  2. 元素分布更加均匀:利用哈希码的低位直接作为数组索引,确保了元素能够被均匀分布在整个 HashMap 中,从而在理想情况下减少了哈希冲突,提高了 HashMap 的整体性能。
  3. 扩容性能更佳HashMap 的初始容量是2^n,扩容也是以 2 倍的形式进行扩容,这样在进行扩容 hash 重分布时,只有两种情况:要么保持不变 ,要么在原索引位置上 + n,性能比打散重新再分布性能更好。

位运算效率

因为位运算仅仅只涉及到简单的二进制位操作,而不需要复杂的算术计算。而取模运算涉及到除法运算,除法运算确是 CPU 中相对复杂和耗时的操作之一,因为它涉及到多步骤的算术计算。

所以,相比于位运算,取模运算需要更多的CPU周期来完成。

如果我们不将 HashMap 的容量约定为 2^n,是无法将 % 运算转换为 & 运算的。而x % 2^n = x & (2^ - 1),可以把 % 运算转换为 & 运算,这样性能就大大提高了。

那为什么 x % 2^n = x & (2^ - 1)呢?

当我们用一个数 x 去取模 2^n 时,实际上是在找出 x 中能够被 2^n 整除的最大部分的余数。在二进制中,2^n 总是像 100...0(后面跟着 n 个 0)。因此,x 除以 2^n 的余数只与 x 的二进制表示中的最低 n 位有关,这正是按位与操作 x & (2^n - 1) 所保留的部分。

看不懂?举个例子,假设 n = 4,x = 25。25 % 2^4 它是等于 25 / 2^4 的余数,即 25 >> 4(11001 右移 4 位),而被移除到的部分(4 位 1001)就是我们的余数,即x 除以 2^n 的余数只与 x 的二进制表示中的最低 n 位有关。而 25 & (16 -1) = 11001 & 1111 = 1001

所以你会看到 HashMap 在获取数组下标时采用的方式就是位运算,例如 put()

分布更加均匀

我们先写个简单的案例测试下,我们新建一个 Student 对象,利用它的 hashcode 分别与 12、16 、 25 、32,按照 HashMap 那样定位 index 的方式来计算值(公式:(table.length - 1) & (key.hashCode ^ (key.hashCode >> 16))),然后放入到 HashMap 中去,看看 HashMap 的结果就可以知道分布情况了。

  • Student 对象

less

代码解读

复制代码

@Data
@AllArgsConstructor
public class Student{
    private String name;

    private Integer age;
}
  • 测试程序:

ini

代码解读

复制代码

public class HashMapTest {
    public static void main(String[] args) {
        Map<Integer,Integer> resultMap = new HashMap<>();
        int k = 16;   // 修改这个
        // 循环创建 500 个对象
        for (int i = 0; i < 500 ; i++) {
            Student student = new Student("skjava-" + i,i);
            int h = student.hashCode();
            int hash1 = h ^ (h>>>16);
            int hash = (k - 1) & hash1;
            if (resultMap.containsKey(hash)) {
                int count = resultMap.get(hash);
                resultMap.put(hash,count + 1);
            } else {
                resultMap.put(hash,1);
            }
        }

        resultMap.forEach((key,value) -> System.out.println("key:" + key + "    value:" + value));
    }
}

最终得到的结果分布图如下:

从上图可以看出只有容量为 16 和 32 的分布是均匀的,而 12 和 25 分布都极其不均匀。为什么会出现这种情况?我们以 s 的 hash (115 = 1110011)值为例。最接近的 127,则 "s".hashCode() & (127 - 1) 如下图:

那如果 capacity 为106 呢?

你会发现标红色虚线部分,无论是 0 还是 1 产生的结果都是一样的,所以如果 capacity 为 106,则它产生的 hash 冲突比 127 大的多。

所以,容量为 2^n ,它能够利用哈希码的低位直接作为数组索引,确保了元素能够被均匀分布在整个 HashMap 中,从而在理想情况下减少了哈希冲突。

扩容性能更佳

当 HashMap 的容量超过阈值后,就会进行扩容操作,扩容就会设计到 hash 重分布的。而重分布的过程是重新计算所有 key 的 hash 值,然后再重新分布,这个过程非常繁重且性能极低。如果我们将 HashMap 的容量保持为 2^n,就避免了这个过程,会变得非常简单而又高效。

加入我们有这样一批 key:sikecom,为了更好地演示,HashMap 的初始容量为8,所以数据分布如下:

现在我们扩容到 16 去,index = hash & (16-1),上面 7 个字母调整位置如表:

key key 二进制值 key ^ (16-1) 原始位置 扩容 16后位置 结果
s 1110011 0011 3 3 不动
i 1101001 1001 1 9 移动 8 位
k 1101011 1011 3 11 移动 8 位
e 1100101 0101 5 5 不动
c 1100011 0011 3 3 不动
o 1101111 1111 7 15 移动 8 位
m 1101101 1101 5 13 移动 8 位

看不明白?下图 s 的 index 变化图:

再看 i 的 index 变化图:

从上图 si 的变化图中可以看出,HashMap 的扩容是否需要移位,由扩容后 key 的 hashcode 参与计算的最高位是否 1 所决定,并且移动的方向只有一个,即向高位移动。因此,在扩容后,我们不需要对每个 key 都进行计算然后来重新分配位置,我们只需要对最高位进行检测,如果为 1 就向高位移动 2^(n-1) 位,为 0 就保持不动,从而优化了性能。

 

原文地址:https://juejin.cn/post/7427117832909438991

相关文章
|
5天前
|
编解码 Java 程序员
写代码还有专业的编程显示器?
写代码已经十个年头了, 一直都是习惯直接用一台Mac电脑写代码 偶尔接一个显示器, 但是可能因为公司配的显示器不怎么样, 还要接转接头 搞得桌面杂乱无章,分辨率也低,感觉屏幕还是Mac自带的看着舒服
|
7天前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1559 10
|
1月前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
10天前
|
人工智能 Rust Java
10月更文挑战赛火热启动,坚持热爱坚持创作!
开发者社区10月更文挑战,寻找热爱技术内容创作的你,欢迎来创作!
715 27
|
7天前
|
存储 SQL 关系型数据库
彻底搞懂InnoDB的MVCC多版本并发控制
本文详细介绍了InnoDB存储引擎中的两种并发控制方法:MVCC(多版本并发控制)和LBCC(基于锁的并发控制)。MVCC通过记录版本信息和使用快照读取机制,实现了高并发下的读写操作,而LBCC则通过加锁机制控制并发访问。文章深入探讨了MVCC的工作原理,包括插入、删除、修改流程及查询过程中的快照读取机制。通过多个案例演示了不同隔离级别下MVCC的具体表现,并解释了事务ID的分配和管理方式。最后,对比了四种隔离级别的性能特点,帮助读者理解如何根据具体需求选择合适的隔离级别以优化数据库性能。
223 3
|
1天前
|
Python
【10月更文挑战第10天】「Mac上学Python 19」小学奥数篇5 - 圆和矩形的面积计算
本篇将通过 Python 和 Cangjie 双语解决简单的几何问题:计算圆的面积和矩形的面积。通过这道题,学生将掌握如何使用公式解决几何问题,并学会用编程实现数学公式。
106 60
|
14天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
730 5
|
3天前
|
Java 开发者
【编程进阶知识】《Java 文件复制魔法:FileReader/FileWriter 的奇妙之旅》
本文深入探讨了如何使用 Java 中的 FileReader 和 FileWriter 进行文件复制操作,包括按字符和字符数组复制。通过详细讲解、代码示例和流程图,帮助读者掌握这一重要技能,提升 Java 编程能力。适合初学者和进阶开发者阅读。
102 61
|
14天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
3天前
vue3+Ts 二次封装ElementUI form表单
【10月更文挑战第8天】
120 57