4.7 remove方法
remove(key) 方法 和 remove(key, value) 方法都是通过调用removeNode的方法来实现删除元素的
final Node removeNode(int hash, Object key, Object value, boolean matchValue, boolean movable) { Node[] tab; Node p; int n, index; if ((tab = table) != null && (n = tab.length) > 0 && (p = tab[index = (n - 1) & hash]) != null) { Node node = null, e; K k; V v; if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) // index 元素只有一个元素 node = p; else if ((e = p.next) != null) { if (p instanceof TreeNode) // index处是一个红黑树 node = ((TreeNode)p).getTreeNode(hash, key); else { // index处是一个链表,遍历链表返回node do { if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) { node = e; break; } p = e; } while ((e = e.next) != null); } } // 分不同情形删除节点 if (node != null && (!matchValue || (v = node.value) == value || (value != null && value.equals(v)))) { if (node instanceof TreeNode) ((TreeNode)node).removeTreeNode(this, tab, movable); else if (node == p) tab[index] = node.next; else p.next = node.next; ++modCount; --size; afterNodeRemoval(node); return node; } } return null; }
4.8 get
/** * 函数原型 * 作用:根据键key,向HashMap获取对应的值 */ map.get(key); /** * 源码分析 */ public V get(Object key) { Node e; // 1\. 计算需获取数据的hash值 // 2\. 通过getNode()获取所查询的数据 ->>分析1 // 3\. 获取后,判断数据是否为空 return (e = getNode(hash(key), key)) == null ? null : e.value; } /** * 分析1:getNode(hash(key), key)) */ final Node getNode(int hash, Object key) { Node[] tab; Node first, e; int n; K k; // 1\. 计算存放在数组table中的位置 if ((tab = table) != null && (n = tab.length) > 0 && (first = tab[(n - 1) & hash]) != null) { // 4\. 通过该函数,依次在数组、红黑树、链表中查找(通过equals()判断) // a. 先在数组中找,若存在,则直接返回 if (first.hash == hash && // always check first node ((k = first.key) == key || (key != null && key.equals(k)))) return first; // b. 若数组中没有,则到红黑树中寻找 if ((e = first.next) != null) { // 在树中get if (first instanceof TreeNode) return ((TreeNode)first).getTreeNode(hash, key); // c. 若红黑树中也没有,则通过遍历,到链表中寻找 do { if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) return e; } while ((e = e.next) != null); } } return null; }
在JDK1.7及以前的版本中,HashMap里是没有红黑树的实现的,在JDK1.8中加入了红黑树是为了防止哈希表碰撞攻击,当链表链长度为8时,及时转成红黑树,提高map的效率
如果某个桶中的记录过大的话(当前是TREEIFY_THRESHOLD = 8),HashMap会动态的使用一个专门的treemap实现来替换掉它。这样做的结果会更好,是O(logn),而不是糟糕的O(n)。它是如何工作的?
前面产生冲突的那些KEY对应的记录只是简单的追加到一个链表后面,这些记录只能通过遍历来进行查找。但是超过这个阈值后HashMap开始将列表升级成一个二叉树,使用哈希值作为树的分支变量,如果两个哈希值不等,但指向同一个桶的话,较大的那个会插入到右子树里。如果哈希值相等,HashMap希望key值最好是实现了Comparable接口的,这样它可以按照顺序来进行插入。这对HashMap的key来说并不是必须的,不过如果实现了当然最好。如果没有实现这个接口,在出现严重的哈希碰撞的时候,你就并别指望能获得性能提升了。
这个性能提升有什么用处?比方说恶意的程序,如果它知道我们用的是哈希算法,它可能会发送大量的请求,导致产生严重的哈希碰撞。然后不停的访问这些key就能显著的影响服务器的性能,这样就形成了一次拒绝服务攻击(DoS)。JDK 8中从O(n)到O(logn)的飞跃,可以有效地防止类似的攻击,同时也让HashMap性能的可预测性稍微增强了一些
/** * 源码分析:resize(2 * table.length) * 作用:当容量不足时(容量 > 阈值),则扩容(扩到2倍) */ void resize(int newCapacity) { // 1\. 保存旧数组(old table) Entry[] oldTable = table; // 2\. 保存旧容量(old capacity ),即数组长度 int oldCapacity = oldTable.length; // 3\. 若旧容量已经是系统默认最大容量了,那么将阈值设置成整型的最大值,退出 if (oldCapacity == MAXIMUM_CAPACITY) { threshold = Integer.MAX_VALUE; return; } // 4\. 根据新容量(2倍容量)新建1个数组,即新table Entry[] newTable = new Entry[newCapacity]; // 5\. (重点分析)将旧数组上的数据(键值对)转移到新table中,从而完成扩容 ->>分析1.1 transfer(newTable); // 6\. 新数组table引用到HashMap的table属性上 table = newTable; // 7\. 重新设置阈值 threshold = (int)(newCapacity * loadFactor); } /** * 分析1.1:transfer(newTable); * 作用:将旧数组上的数据(键值对)转移到新table中,从而完成扩容 * 过程:按旧链表的正序遍历链表、在新链表的头部依次插入 */ void transfer(Entry[] newTable) { // 1\. src引用了旧数组 Entry[] src = table; // 2\. 获取新数组的大小 = 获取新容量大小 int newCapacity = newTable.length; // 3\. 通过遍历 旧数组,将旧数组上的数据(键值对)转移到新数组中 for (int j = 0; j < src.length; j++) { // 3.1 取得旧数组的每个元素 Entry e = src[j]; if (e != null) { // 3.2 释放旧数组的对象引用(for循环后,旧数组不再引用任何对象) src[j] = null; do { // 3.3 遍历 以该数组元素为首 的链表 // 注:转移链表时,因是单链表,故要保存下1个结点,否则转移后链表会断开 Entry next = e.next; // 3.3 重新计算每个元素的存储位置 int i = indexFor(e.hash, newCapacity); // 3.4 将元素放在数组上:采用单链表的头插入方式 = 在链表头上存放数据 = 将数组位置的原有数据放在后1个指针、将需放入的数据放到数组位置中 // 即 扩容后,可能出现逆序:按旧链表的正序遍历链表、在新链表的头部依次插入 e.next = newTable[i]; newTable[i] = e; // 访问下1个Entry链上的元素,如此不断循环,直到遍历完该链表上的所有节点 e = next; } while (e != null); // 如此不断循环,直到遍历完数组上的所有数据元素 } } }
从上面可看出:在扩容resize()过程中,在将旧数组上的数据 转移到 新数组上时,转移数据操作 = 按旧链表的正序遍历链表、在新链表的头部依次插入,即在转移数据、扩容后,容易出现链表逆序的情况
设重新计算存储位置后不变,即扩容前 = 1->2->3,扩容后 = 3->2->1
此时若并发执行 put 操作,一旦出现扩容情况,则 容易出现 环形链表,从而在获取数据、遍历链表时 形成死循环(Infinite Loop),即死锁
单线程rehash
单线程情况下,rehash无问题
多线程并发下的rehash
这里假设有两个线程同时执行了put操作并引发了rehash,执行了transfer方法,并假设线程一进入transfer方法并执行完next = e.next后,因为线程调度所分配时间片用完而“暂停”,此时线程二完成了transfer方法的执行。此时状态如下。
接着线程1被唤醒,继续执行第一轮循环的剩余部分
e.next = newTable[1] = null newTable[1] = e = key(5) e = next = key(9)
结果如下图所示
接着执行下一轮循环,结果状态图如下所示
继续下一轮循环,结果状态图如下所示
此时循环链表形成,并且key(11)无法加入到线程1的新数组。在下一次访问该链表时会出现死循环。
Fast-fail
产生原因
在使用迭代器的过程中如果HashMap被修改,那么ConcurrentModificationException将被抛出,也即Fast-fail策略。
当HashMap的iterator()方法被调用时,会构造并返回一个新的EntryIterator对象,并将EntryIterator的expectedModCount设置为HashMap的modCount(该变量记录了HashMap被修改的次数)。
HashIterator() { expectedModCount = modCount; if (size > 0) { // advance to first entry Entry[] t = table; while (index < t.length && (next = t[index++]) == null) ; } }
在通过该Iterator的next方法访问下一个Entry时,它会先检查自己的expectedModCount与HashMap的modCount是否相等,如果不相等,说明HashMap被修改,直接抛出ConcurrentModificationException。该Iterator的remove方法也会做类似的检查。该异常的抛出意在提醒用户及早意识到线程安全问题。
线程安全解决方案
单线程条件下,为避免出现ConcurrentModificationException,需要保证只通过HashMap本身或者只通过Iterator去修改数据,不能在Iterator使用结束之前使用HashMap本身的方法修改数据。因为通过Iterator删除数据时,HashMap的modCount和Iterator的expectedModCount都会自增,不影响二者的相等性。如果是增加数据,只能通过HashMap本身的方法完成,此时如果要继续遍历数据,需要重新调用iterator()方法从而重新构造出一个新的Iterator,使得新Iterator的expectedModCount与更新后的HashMap的modCount相等。
多线程条件下,可使用Collections.synchronizedMap方法构造出一个同步Map,或者直接使用线程安全的ConcurrentHashMap。
HashSet的底层实现
public class HashSet<E> extends AbstractSet<E> implements Set<E>, Cloneable, java.io.Serializable{ private transient HashMap<E,Object> map; private static final Object PRESENT = new Object(); public HashSet() { map = new HashMap<>(); } public boolean add(E e) { return map.put(e, PRESENT)==null; } }