HashMap,难的不在Map,而在Hash

简介: HashMap,难的不在Map,而在Hash

在平常的开发当中,HashMap是我最常用的Map类(没有之一),它支持null键和null值,是绝大部分利用键值对存取场景的首选。需要切记的一点是——HashMap不是线程安全的数据结构,所以不要在多线程场景中应用它。


通常情况下,我们使用Map的主要目的是用来放入(put)、访问(get)或者删除(remove),而对顺序没有特别的要求——HashMap在这种情况下就是最好的选择。


01、Hash


对于HashMap来说,难理解的不在于Map,而在于Hash。


Hash,一般译作“散列”,也有直接音译为“哈希”的,这玩意什么意思呢?就是把任意长度的数据通过一种算法映射到固定长度的域上(散列值)。


再直观一点,就是对一串数据wang进行杂糅,输出另外一段固定长度的数据er——作为数据wang的特征。我们通常用一串指纹来映射某一个人,别小瞧手指头那么大点的指纹,在你所处的范围内很难找出第二个和你相同的(人的散列算法也好厉害,有没有?)。


对于任意两个不同的数据块,其散列值相同的可能性极小,也就是说,对于一个给定的数据块,找到和它散列值相同的数据块极为困难。再者,对于一个数据块,哪怕只改动它的一个比特位,其散列值的改动也会非常的大——这正是Hash存在的价值!


在Java中,String字符串的散列值计算方法如下:


public int hashCode() {
    int h = hash;
    if (h == 0 && value.length > 0) {
        char val[] = value;
        for (int i = 0; i < value.length; i++) {
            h = 31 * h + val[i];
        }
        hash = h;
    }
    return h;
}

看得懂看不懂都没关系,我们就当是一个“乘加迭代运算”的算法。借此机会,我们来看一下“沉”、“默”、“王”、“二”四个字符串的散列值是多少。


String[] cmower = { "沉", "默", "王", "二" };

for (String s : cmower) {

   System.out.println(s.hashCode());

}

输出的结果如下(5位数字):


沉的散列值:27785

默的散列值:40664

王的散列值:29579

二的散列值:20108


对于HashMap来说,Hash(key,键位)存在的目的是为了加速键值对的查找(你想,如果电话薄不是按照人名的首字母排列的话,找一个人该多困难「我的微信好友有不少在昵称前加了A,好狠」)。通常情况下,我们习惯使用String字符串来作为Map的键,请看以下代码:


Map<String, String> map = new HashMap<>();

String[] cmower = { "沉", "默", "王", "二" };

for (String s : cmower) {

   map.put(s, s + "月入25万");

}

那HashMap会真的会将String字符串作为实际的键吗?我们来看HashMap的put方法源码:


public V put(K key, V value) {

   return putVal(hash(key), key, value, false, true);

}

虽然只有一个putVal()方法的调用,但是你应该已经发现,HashMap内部会把key进行一个hash运算,具体代码如下:


static final int hash(Object key) {

   int h;

   return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);

}

假如key是String字符串的话,hash()会先获取字符串的hashCode(散列值),再对散列值进行位于运算,最终的值为HashMap实际的键(int值)。


既然HashMap在put的时候使用键的散列值作为实际的键,那么在根据键获取值的时候,自然也要先对get(key)方法的key进行hash运算,请看以下代码:


public V get(Object key) {

   Node<K,V> e;

   return (e = getNode(hash(key), key)) == null ? null : e.value;

}

02、散列值冲突怎么解决


尽管散列值很难重复,我们还是要明白,这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出。


也就是说,key1 ≠ key2,但function(key1)有可能等于function(key2)——散列值冲突了。怎么办?


最容易想到的解决办法就是:当关键字key2的散列值value与key1的散列值value出现冲突时,以value为基础,产生另一个散列值value1,如果value1与value不再冲突,则将value1作为key2的散列值。


依照这个办法,总会找到不冲突的那个。


03、初始容量和负载因子


HashMap的构造方法主要有三种:


public HashMap(int initialCapacity, float loadFactor) {
    if (initialCapacity > MAXIMUM_CAPACITY)
        initialCapacity = MAXIMUM_CAPACITY;
    this.loadFactor = loadFactor;
    this.threshold = tableSizeFor(initialCapacity);
}
public HashMap(int initialCapacity) {
    this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
public HashMap() {
    this.loadFactor = DEFAULT_LOAD_FACTOR;
}

其中initialCapacity为初始容量(默认为1 << 4 = 16),loadFactor为负载因子(默认为0.75)。初始容量是HashMap在创建时的容量(HashMap中桶的数量);负载因子是HashMap在其容量自动增加之前可以达到多满的一种尺度。


当HashMap中的条目数超出了负载因子与当前容量的乘积时,则要对HashMap扩容,增加大约两倍的桶数。


通常,默认的负载因子 (0.75) 是时间和空间成本上的一种折衷。负载因子过高虽然减少了空间开销,但同时增加了查询成本。如果负载因子过小,则初始容量要增大,否则会导致频繁的扩容。


在设置初始容量时应该考虑到映射中所需的条目数及其加载因子,以便最大限度地减少扩容的操作次数。


如果能够提前预知要存取的键值对数量的话,可以考虑设置合适的初始容量(大于“预估元素数量 / 负载因子”,并且是2的幂数)。


04、小结


在之前很长的一段时间内,我对HashMap的认知仅限于会用它的put(key, value)和value = get(key)。


但,当我强迫自己每周要输出一篇Java方面的技术文章后,我对HashMap真的“深入浅出”了——散列值(哈希值)、散列冲突(哈希冲突)、初始容量和负载因子,竟然能站在我面前一直笑——而原先,我见到这些关键字就逃之夭夭了,我怕见到它们。


相关文章
|
3月前
|
存储 安全 Java
Java Map新玩法:探索HashMap和TreeMap的高级特性,让你的代码更强大!
【10月更文挑战第17天】Java Map新玩法:探索HashMap和TreeMap的高级特性,让你的代码更强大!
96 2
|
3月前
|
存储 Java 开发者
Java Map实战:用HashMap和TreeMap轻松解决复杂数据结构问题!
【10月更文挑战第17天】本文深入探讨了Java中HashMap和TreeMap两种Map类型的特性和应用场景。HashMap基于哈希表实现,支持高效的数据操作且允许键值为null;TreeMap基于红黑树实现,支持自然排序或自定义排序,确保元素有序。文章通过具体示例展示了两者的实战应用,帮助开发者根据实际需求选择合适的数据结构,提高开发效率。
108 2
|
3月前
|
存储 缓存 安全
HashMap VS TreeMap:谁才是Java Map界的王者?
HashMap VS TreeMap:谁才是Java Map界的王者?
165 2
|
3月前
|
算法 Java 容器
Map - HashSet & HashMap 源码解析
Map - HashSet & HashMap 源码解析
81 0
|
3月前
|
存储 Java API
详细解析HashMap、TreeMap、LinkedHashMap等实现类,帮助您更好地理解和应用Java Map。
【10月更文挑战第19天】深入剖析Java Map:不仅是高效存储键值对的数据结构,更是展现设计艺术的典范。本文从基本概念、设计艺术和使用技巧三个方面,详细解析HashMap、TreeMap、LinkedHashMap等实现类,帮助您更好地理解和应用Java Map。
87 3
|
3月前
|
存储 缓存 安全
在Java的Map家族中,HashMap和TreeMap各具特色
【10月更文挑战第19天】在Java的Map家族中,HashMap和TreeMap各具特色。HashMap基于哈希表实现,提供O(1)时间复杂度的高效操作,适合性能要求高的场景;TreeMap基于红黑树,提供O(log n)时间复杂度的有序操作,适合需要排序和范围查询的场景。两者在不同需求下各有优势,选择时需根据具体应用场景权衡。
44 2
|
3月前
|
存储 安全 Java
Java Map新玩法:深入探讨HashMap和TreeMap的高级特性
【10月更文挑战第19天】Java Map新玩法:深入探讨HashMap和TreeMap的高级特性,包括初始容量与加载因子的优化、高效的遍历方法、线程安全性处理以及TreeMap的自然排序、自定义排序、范围查询等功能,助你提升代码性能与灵活性。
35 2
|
3月前
|
存储 Java
Map大揭秘:HashMap与TreeMap背后的故事,你听过吗?
Map大揭秘:HashMap与TreeMap背后的故事,你听过吗?
36 1
|
3月前
|
存储 缓存 Java
【用Java学习数据结构系列】HashMap与TreeMap的区别,以及Map与Set的关系
【用Java学习数据结构系列】HashMap与TreeMap的区别,以及Map与Set的关系
53 1
|
4月前
|
存储 算法 Java
深入剖析HashMap:理解Hash、底层实现与扩容机制
【9月更文挑战第6天】在Java编程中,`HashMap`是一个常用的数据结构,其高效性和可靠性依赖于深入理解哈希、底层实现及扩容机制。哈希通过散列算法将键映射到数组索引,采用链表或红黑树处理冲突;底层实现结合数组与链表,利用2的幂次方长度加快定位;扩容机制在元素数量超过负载因子与数组长度乘积时触发,通过调整初始容量和负载因子可优化性能。
137 3