来源:https://blog.csdn.net/fuzhongmin05/article/details/104355841
下面基于JDK 1.8的源码来学习HashMap及LinkedHashMap的数据结构、原理。不同JDK版本之间也许会有些许差异,但不影响原理学习,JDK8相比以前对HashMap的修改比较大。
1、HashMap概述
Map是 Key-Value键值对映射的抽象接口,该映射不包括重复的键,即一个键对应一个值。HashMap是Java Collection Framework的重要成员,也是Map族(如下图所示)中我们最为常用的一种。
简单地说,HashMap是基于哈希表的Map接口的实现,以Key-Value的形式存在,即存储的对象是 Node (同时包含了Key和Value) 。在HashMap中,其会根据hash算法来计算key-value的存储位置并进行快速存取。特别地,HashMap最多只允许一条Node的key为Null,但允许多条Node的value为Null。此外,HashMap是Map 的一个非同步的实现。
以下是HashMap的类继承图
必须指出的是,虽然容器号称存储的是 Java 对象,但实际上并不会真正将 Java 对象放入容器中,只是在容器中保留这些对象的引用。也就是说,Java 容器实际上包含的是引用变量,而这些引用变量指向了我们要实际保存的 Java 对象。
推荐一个开源免费的 Spring Boot 最全教程:
https://github.com/javastacks/spring-boot-best-practice
1.1、HashMap定义及构造函数
JDK中的定义为
public class HashMap<K,V> extends AbstractMap<K,V> implements Map<K,V>, Cloneable, Serializable { //... }
HashMap 一共提供了四个构造函数,其中 默认无参的构造函数 和 参数为Map的构造函数 为 Java Collection Framework 规范的推荐实现,其余两个构造函数则是 HashMap 专门提供的。
public HashMap(int initialCapacity) { this(initialCapacity, DEFAULT_LOAD_FACTOR); } //仅仅将负载因子初始化为默认值 public HashMap() { this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted }
HashMap(int initialCapacity, float loadFactor)构造函数意在构造一个指定初始容量和指定负载因子的空HashMap,其源码如下:
public HashMap(int initialCapacity, float loadFactor) { if (initialCapacity < 0) throw new IllegalArgumentException("Illegal initial capacity: " + initialCapacity); //容量最大为2的30次方 if (initialCapacity > MAXIMUM_CAPACITY) initialCapacity = MAXIMUM_CAPACITY; if (loadFactor <= 0 || Float.isNaN(loadFactor)) throw new IllegalArgumentException("Illegal load factor: " + loadFactor); this.loadFactor = loadFactor; //这里调用函数计算触发扩容的阈值,threshold/loadFactor就是容量 this.threshold = tableSizeFor(initialCapacity); }
以上构造函数的最后一行就是jdk8的修改,实际上在jdk7之前的版本,这个构造方法最后一行就是:
table = new Entry[capacity];
但是jdk8的最后一行并没有立刻new出一个数组,而是调用了tableSizeFor方法,将结果赋值给了threshold变量。tableSizeFor方法源码如下,从注释就可以看出来,其目的是要获得大于cap的最小的2的幂。比如cap=10,则返回16。
/** * Returns a power of two size for the given target capacity. */ static final int tableSizeFor(int cap) { int n = cap - 1; n |= n >>> 1; n |= n >>> 2; n |= n >>> 4; n |= n >>> 8; n |= n >>> 16; return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1; }
1.2、HashMap的数据结构
我们知道,在Java中最常用的两种结构是数组和链表,几乎所有的数据结构都可以利用这两种来组合实现,HashMap就是这种应用的一个典型。实际上,经典的HashMap就是一个链表数组,只是jdk1.8再次对经典hashMap的数据结构作了小幅调整,如下是当前HaspMap的数据结构:
在JDK1.6和JDK1.7中,HashMap采用数组+链表实现,即使用链表处理冲突,同一hash值的key-value键值对都存储在一个链表里。但是当数组中一个位置上的元素较多,即hash值相等的元素较多时,通过key值依次查找的效率较低。而在JDK1.8中,HashMap采用数组+链表+红黑树实现,当链表长度超过阈值8时,并且数组总容量超过64时,将链表转换为红黑树,这样大大减少了查找时间。从链表转换为红黑树后新加入键值对的效率降低,但查询、删除的效率都变高了。而当发生扩容或remove键值对导致原有的红黑树内节点数量小于6时,则又将红黑树转换成链表。
每一个HashMap都有一个Node类型的table数组,其中Node类型的定义如下:
static class Node<K,V> implements Map.Entry<K,V> { final int hash; // 声明 hash 值为 final 的 final K key; // 声明 key 为 final 的 V value; // 键值对的值 Node<K,V> next; // 指向下一个节点的引用 Node(int hash, K key, V value, Node<K,V> next) { this.hash = hash; this.key = key; this.value = value; this.next = next; } }
Node为HashMap的内部类,实现了Map.Entry接口,其包含了键key、值value、下一个节点next,以及hash值四个属性。事实上,Node是构成哈希表的基石,是哈希表所存储的元素的具体形式。值得注意的是,int类型的hash值及引用变量key都被声明成final,即不可变。
1.3、HashMap的快速存取
在HashMap中,我们最常用的两个操作就是:put(Key,Value)和get(Key)。我们都知道,HashMap中的Key是唯一的,那它是如何保证唯一性的呢?我们首先想到的是用equals比较,没错,这样是可以实现的,但随着元素的增多,put和get的效率将越来越低,这里的时间复杂度是O(n)。也就是说,假如HashMap有1000个元素,那么put时就需要比较1000次,这是相当耗时的,远达不到HashMap快速存取的目的。
实际上,HashMap很少会用到equals方法,因为其内通过一个哈希表管理所有元素,利用哈希算法可以快速的存取元素。当我们调用put方法存值时,HashMap首先会调用Key的hashCode方法,然后基于此值获取Key的哈希码,通过哈希码快速找到某个位置,这个位置可以被称之为bucketIndex。根据equals方法与hashCode的协定可以知道,如果两个对象的hashCode不同,那么equals一定为 false;如果其hashCode相同,equals也不一定为true。
所以,理论上,hashCode 可能存在碰撞的情况,当碰撞发生时,这时会取出bucketIndex桶内已存储的元素(如果该桶next引用不空,即有了链表也要遍历链表),并通过hashCode()和equals()来逐个比较以判断Key是否已存在。如果已存在,则使用新Value值替换旧Value值,并返回旧Value值;如果不存在,则存放新的键值对<Key, Value>到链表中。因此,在HashMap中,equals()方法只有在哈希码碰撞时才会被用到。
结合源码来看HashMap的put操作:
public V put(K key, V value) { return putVal(hash(key), key, value, false, true); } final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict) { Node<K,V>[] tab; Node<K,V> p; int n, i; //第一次put元素时,table数组为空,先调用resize生成一个指定容量的数组 if ((tab = table) == null || (n = tab.length) == 0) n = (tab = resize()).length; //hash值和n-1的与运算结果为桶的位置,如果该位置空就直接放置一个Node if ((p = tab[i = (n - 1) & hash]) == null) tab[i] = newNode(hash, key, value, null); //如果计算出的bucket不空,即发生哈希冲突,就要进一步判断 else { Node<K,V> e; K k; //判断当前Node的key与要put的key是否相等 if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) e = p; //判断当前Node是否是红黑树的节点 else if (p instanceof TreeNode) e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value); //以上都不是,说明要new一个Node,加入到链表中 else { for (int binCount = 0; ; ++binCount) { //在链表尾部插入新节点,注意jdk1.8是在链表尾部插入新节点 if ((e = p.next) == null) { p.next = newNode(hash, key, value, null); // 如果当前链表中的元素大于树化的阈值,进行链表转树的操作 if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st treeifyBin(tab, hash); break; } //在链表中继续判断是否已经存在完全相同的key if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) break; p = e; } } //走到这里,说明本次put是更新一个已存在的键值对的value if (e != null) { // existing mapping for key V oldValue = e.value; if (!onlyIfAbsent || oldValue == null) e.value = value; //在hashMap中,afterNodeAccess方法体为空,交给子类去实现 afterNodeAccess(e); return oldValue; } } ++modCount; //如果当前size超过临界值,就扩容。注意是先插入节点再扩容 if (++size > threshold) resize(); //在hashMap中,afterNodeInsertion方法体为空,交给子类去实现 afterNodeInsertion(evict); return null; }
通过上述源码我们可以清楚了解到HashMap保存数据的过程。先计算key的hash值,然后根据hash值搜索在table数组中的索引位置,如果table数组在该位置处有元素,则查找是否存在相同的key,若存在则覆盖原来key的value,否则将该元素保存在链表尾部,注意JDK1.7中采用的是头插法,即每次都将冲突的键值对放置在链表头,这样最初的那个键值对最终就会成为链尾,而JDK1.8中使用的是尾插法。此外,若table在该处没有元素,则直接保存。