HashMap源码学习笔记-阿里云开发者社区

HashMap源码学习笔记

2018-08-18 1156

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 最近忙于各种事情，只能陆陆续续也看了一些东西，Java的HashMap应该算比较基础的东西，也是最近在看，其中也有HashMap的数据结构，又回去看了一下Java本身实现，这篇也就再记录一下。

最近忙于各种事情，只能陆陆续续也看了一些东西，Java的HashMap应该算比较基础的东西，也是最近在看<<Redis设计与实现>>，其中也有HashMap的数据结构，又回去看了一下Java本身实现，这篇也就再记录一下。

Java数据结构中定义了Map接口，该接口有四个常用实现类：HashMap， Hashtable，LinkedHashMap和TreeMap。

针对上面四个常用类简单的介绍一下：

1. Hashtable: 从下面的Java doc就可以看出，其本身是线程安全的，但是并发性不如concurrent中的ConcurrentHashMap，而不需要线程安全时候，也推荐使用HashMap，故可以算是一个遗留类，不推荐使用。

Hashtable Java doc

2. LinkedHashMap：它是HashMap的一个子类，保存了记录的插入顺序，在用Iterator遍历LinkedHashMap时，先得到的记录肯定是先插入的。

LinkedHashMap java doc

3. TreeMap：TreeMap实现SortedMap接口，能够把它保存的记录根据键排序，默认是按键值的升序排序，也可以指定排序的比较器，当用Iterator遍历TreeMap时，得到的记录是排过序的。如果使用排序的映射，建议使用TreeMap。

TreeMap Java doc

4. HashMap：它根据键的hashCode值存储数据，大多数情况下可以直接定位到它的值，因而具有很快的访问速度，但遍历顺序却是不确定的。 HashMap最多只允许一条记录的键为null，允许多条记录的值为null。HashMap非线程安全，可能会导致数据的不一致。如果需要满足线程安全，可以使用之前提及的ConcurrentHashMap（不建议用Hashtable）。

本篇主要简单介绍的就是HashMap的实现，也是由于HashMap是最最常用的一个，可以满足大部分场景。自己工作了一年时间，基本也只用过HashMap= =

内部结构

HashMap内部的数据结构，就是最经典的数组+链表实现的哈希桶（JDK 1.7之前)，从1.8之后，链表节点数量满足一定条件后，会自动转换成红黑树的数据结构，进一步提高查询效率。简单来说，HashMap的结构就是一个指针数组。

数据结构

图中的黑点则是存放Key-Value的Node，其数据结构如下：

Node数据结构

其中 hash是用来定位数组索引位置， next是链表的下一个node。

字段

Map.put("key", "value")

在不考虑扩容的情况下，put操作会首先计算key的hash值，并通过取高位运算 + 取模运算两步，就能计算出该key在哈希桶的位置了。

当两个key定位在了同一个位置，则表示发生了Hash碰撞。因此，良好的Hash算法，能够尽量减少Hash碰撞，提高Map的存取效率。然而，即使很好的Hash算法，如果哈希桶的size很小（相比于Node数量），无论怎么计算，总是在这几个位置，也会出现很多碰撞。因此，解决碰撞，不仅需要良好的Hash算法，还需要一个良好的扩容机制。

要讨论扩容机制，就先看一下HashMap中的几个字段(附默认值)：

capacity: Hash桶容量

load_factor: 负载因子

size：已有node数量，modCount:内部结构变化次数，threshold=capacity * factor: 最大node数量

从上面几个字段可以看出，当put操作，使得size > threshold时，HashMap就会发生扩容。并且从Java 动doc可以看出，Hash桶的大小一定是2的n次方。（正是这个限制，使得HashMap在扩容和计算key位置的运算效率提升了很多）

实现

Hash算法的实现，其实只有下面三行代码:

int hashcode = key.hashCode(); // 获取hashcode

int hashInt = hashcode ^ (hashcode >>> 16 ); // 高位运算

int index = hashInt & (length - 1) // 取模运算， lenght是数组大小

第二步通过hashCode()的高16位异或低16位实现的：(h = k.hashCode()) ^ (h >>> 16)，主要是从速度、功效、质量来考虑的，这么做可以在数组table的length比较小的时候，也能保证考虑到高低Bit都参与到Hash的计算中，同时不会有太大的开销。

第三步也是非常巧妙，因为Lenght是2的n次方，因此length - 1 永远是n个1，其实相当于对hashInt做了一次取模，但是效率极高。

下面是JDK 1.8的put代码实现:

JDK1.8中put实现

line 627-628: table为空则创建.

line 629-630: 计算index，并且check null，如果为null，直接创建一个index;

line 633-635: 如果需要put的key和该位置原来的key一样，则直接覆盖value，否则进行下面的追加操作

line 676-637: 红黑树操作，追加Node到红黑树

line 638-650: 链表操作，追加node到链表，并且判断是否需要转化为红黑树。

line 661-662: 判断是否需要扩容

扩容机制

扩容机制里的算法相对也比较复杂，HashMap的线程不安全性，也正是由于扩容时，链表操作可能导致的Infinite Loop引起。因此下一篇再具体举例说明吧。顺便可以一起把redis的HashMap resize机制一起说一下，基本都是大同小异。

总结

本篇就从源码角度，简单讲解HashMap的基本数据结构和关键操做的实现，以及简单介绍了扩容机制，由于JDK1.8以后的红黑树，导致扩容的代码更加复杂，但是扩容的算法相对于1.8之前，也有了不少优化，不过之后也不会深入算法方便，主要还是会介绍扩容的流程和原理。同事会结合redis的哈希表实现。

HashMap源码学习笔记

内部结构

字段

实现

扩容机制

总结

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

HashMap源码学习笔记

内部结构

字段

实现

扩容机制

总结

热门文章

最新文章

相关电子书