滚雪球学Java(62):HashSet的底层实现原理解析

本文涉及的产品
云解析DNS-重点域名监控,免费拨测 20万次(价值200元)
简介: 【6月更文挑战第16天】🏆本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&订阅!持续更新中,up!up!up!!

在这里插入图片描述

  咦咦咦,各位小可爱,我是你们的好伙伴——bug菌,今天又来给大家普及Java SE相关知识点了,别躲起来啊,听我讲干货还不快点赞,赞多了我就有动力讲得更嗨啦!所以呀,养成先点赞后阅读的好习惯,别被干货淹没了哦~

在这里插入图片描述


🏆本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,助你一臂之力,带你早日登顶🚀,欢迎大家关注&&收藏!持续更新中,up!up!up!!

环境说明:Windows 10 + IntelliJ IDEA 2021.3.2 + Jdk 1.8

@[toc]

前言

  在Java中,我们常常使用HashSet来存储一组不重复的对象,但是在使用它的时候,我们可能并没有意识到它的底层实现原理。本篇文章将会深入分析HashSet的底层实现原理,以便更好地理解它的使用和优化。

摘要

  本篇文章将会深入分析Java中HashSet的底层实现原理,包括HashSet的源代码解析,应用场景案例,优缺点分析,类代码方法介绍,以及测试用例和全文小结。

HashSet

概述

  HashSet是Java中一个常用的集合类,它继承了AbstractSet类,并且实现了Set接口。与List不同的是,HashSet中的元素是无序的,并且不允许有重复的元素。在使用HashSet时,我们通常会使用add()方法来向其中添加元素,并且使用contains()方法来判断元素是否存在于集合中。

  HashSet的底层实现原理是基于HashMap实现的。HashSet中的元素在底层都是存储在HashMap的key上的,而value则是一个"PRESENT"常量,它并没有实际的作用,只是用于填充HashMap的value值。因此,HashSet中的元素都是唯一的,并且无序。

源代码解析

下面是HashSet的源代码:

public class HashSet<E>
    extends AbstractSet<E>
    implements Set<E>, Cloneable, java.io.Serializable
{
   
   
    static final long serialVersionUID = -5024744406713321676L;

    private transient HashMap<E,Object> map;

    // 内部默认的value值
    private static final Object PRESENT = new Object();

    // 无参构造函数,默认创建一个空的HashSet
    public HashSet() {
   
   
        map = new HashMap<>();
    }

    // 可以接收集合类型的构造函数
    public HashSet(Collection<? extends E> c) {
   
   
        map = new HashMap<>(Math.max((int) (c.size()/.75f) + 1, 16));
        addAll(c);
    }

    // 可以接收初始容量和负载因子的构造函数
    public HashSet(int initialCapacity, float loadFactor) {
   
   
        map = new HashMap<>(initialCapacity, loadFactor);
    }

    // 可以接收初始容量的构造函数
    public HashSet(int initialCapacity) {
   
   
        map = new HashMap<>(initialCapacity);
    }

    // 添加元素到HashSet中
    public boolean add(E e) {
   
   
        return map.put(e, PRESENT)==null;
    }

    // 将另一个集合中的元素添加到当前HashSet中
    public boolean addAll(Collection<? extends E> c) {
   
   
        boolean modified = false;
        for (E e : c)
            if (add(e))
                modified = true;
        return modified;
    }

    // 清空HashSet
    public void clear() {
   
   
        map.clear();
    }

    // 判断HashSet是否包含某个元素
    public boolean contains(Object o) {
   
   
        return map.containsKey(o);
    }

    // 判断HashSet是否为空
    public boolean isEmpty() {
   
   
        return map.isEmpty();
    }

    // 删除HashSet中的某个元素
    public boolean remove(Object o) {
   
   
        return map.remove(o)==PRESENT;
    }

    // 获取HashSet的大小
    public int size() {
   
   
        return map.size();
    }

    // 返回HashSet的对象数组
    public Object[] toArray() {
   
   
        return map.keySet().toArray();
    }

    // 返回HashSet的泛型数组
    public <T> T[] toArray(T[] a) {
   
   
        return map.keySet().toArray(a);
    }

    // 返回HashSet的迭代器
    public Iterator<E> iterator() {
   
   
        return map.keySet().iterator();
    }

    // 克隆当前HashSet
    public Object clone() {
   
   
        try {
   
   
            HashSet<E> newSet = (HashSet<E>) super.clone();
            newSet.map = (HashMap<E,Object>) map.clone();
            return newSet;
        } catch (CloneNotSupportedException e) {
   
   
            throw new InternalError(e);
        }
    }

    // 序列化
    private void writeObject(java.io.ObjectOutputStream s)
        throws java.io.IOException {
   
   
        s.defaultWriteObject();
        s.writeInt(map.capacity());
        s.writeFloat(map.loadFactor());
        s.writeInt(map.size());
        for (E e : map.keySet())
            s.writeObject(e);
    }

    // 反序列化
    private void readObject(java.io.ObjectInputStream s)
        throws java.io.IOException, ClassNotFoundException {
   
   
        s.defaultReadObject();
        int capacity = s.readInt();
        if (capacity < 0) {
   
   
            throw new InvalidObjectException("Illegal capacity: " +
                                             capacity);
        }
        float loadFactor = s.readFloat();
        if (loadFactor <= 0 || Float.isNaN(loadFactor)) {
   
   
            throw new InvalidObjectException("Illegal load factor: " +
                                             loadFactor);
        }
        int size = s.readInt();
        if (size < 0) {
   
   
            throw new InvalidObjectException("Illegal size: " +
                                             size);
        }
        map = (((HashSet<?>)this) instanceof LinkedHashSet ?
               new LinkedHashMap<>(capacity, loadFactor) :
               new HashMap<>(capacity, loadFactor));
        for (int i=0; i<size; i++) {
   
   
            E e = (E) s.readObject();
            map.put(e, PRESENT);
        }
    }
}

  从上面的源代码可以看出,HashSet实际上是基于HashMap实现的,也就是说HashSet本身的操作都是委托给底层的HashMap来完成的。如下是对该源码的一些分析:

  该HashSet类实现了Set接口,是一个基于HashMap实现的无序且不允许重复元素的集合。

  该类拥有一系列构造函数,可以根据不同的参数创建不同的HashSet。其中,无参构造函数默认创建一个空的HashSet,可以接收集合类型的构造函数会将传入的集合中的元素添加到当前HashSet中,可以接收初始容量和负载因子的构造函数会创建一个空的HashMap并指定初始容量和负载因子,可以接收初始容量的构造函数会创建一个空的HashMap并指定初始容量。

  该类定义了一系列方法,包括添加元素到HashSet中、将另一个集合中的元素添加到当前HashSet中、判断HashSet是否包含某个元素、从HashSet中删除某个元素、获取HashSet的大小、判断HashSet是否为空、清空HashSet等方法。

  该类还实现了Cloneable和Serializable接口,可以实现克隆和序列化。其中,克隆时会克隆一个新的HashSet并将当前HashSet中的所有元素添加到新的HashSet中,序列化时会将当前HashSet中的所有元素按顺序写到输出流中,并在反序列化时读取这些元素并添加到新的HashSet中。

  该类的内部实现使用HashMap来存储HashSet中的元素,利用HashMap不允许键重复的特性保证HashSet中元素的唯一性。同时,HashSet中的元素顺序是不确定的,因为HashMap中元素的顺序是基于哈希算法裂解的。

  此外,可以看到,HashSet中定义了一个transient的HashMap对象map,这个Map对象中的key存储了HashSet中的元素,而value则使用了一个"PRESENT"常量,它并没有实际的作用,只是用于填充Map中的value值。

  在HashSet中,添加元素的方法是add(),我们来详细解析一下这个方法的实现:

public boolean add(E e) {
   
   
    return map.put(e, PRESENT)==null;
}

在这里插入图片描述

  首先,add()方法从map中调用put()方法,并将元素e作为key,"PRESENT"常量作为value加入map中。如果put()方法返回null,则说明添加的元素在HashSet中并不存在,返回true表示添加成功;否则说明添加的元素已经存在于HashSet中,返回false表示添加失败。

  如下是部分源码截图:

在这里插入图片描述

应用场景案例

HashSet的应用场景非常广泛,常见的使用场景有:

  1. 去重:使用HashSet可以非常方便地去重,只需要将需要去重的对象添加到HashSet中,最后再将HashSet转换成需要的数据结构即可。

  2. 查找:由于HashSet中的元素都是唯一的,因此我们可以使用HashSet来查找某个元素是否存在于HashSet中。

  3. 缓存:由于HashSet具有快速查找和去重的特点,因此在缓存场景中也经常使用HashSet来存储数据。

优缺点分析

优点

  1. 去重:HashSet中的元素都是唯一的,这个特点非常适合去重场景。

  2. 快速查找:由于HashSet中的元素是基于HashMap实现的,因此在查找元素时具有非常快的速度。

  3. 高效率:HashSet的实现非常高效,支持快速的添加、删除、查找等操作。

缺点

  1. 无序:由于HashSet中的元素是无序的,因此如果需要有序的元素,我们需要使用LinkedHashSet。

  2. 线程不安全:HashSet是线程不安全的,因此在多线程的情况下,我们需要使用ConcurrentHashMap。

类代码方法介绍

  1. add(E e)方法:向HashSet中添加元素,并返回是否添加成功。

  2. addAll(Collection<? extends E> c)方法:将另一个集合中的元素添加到当前HashSet中,并返回是否添加成功。

  3. clear()方法:清空HashSet中的所有元素。

  4. contains(Object o)方法:判断HashSet中是否包含某个元素。

  5. isEmpty()方法:判断HashSet是否为空。

  6. remove(Object o)方法:从HashSet中删除某个元素,并返回是否删除成功。

  7. size()方法:获取HashSet的大小。

  如下是部分源码截图:

在这里插入图片描述
在这里插入图片描述

常用方法

HashSet的常用方法列举如下:

  1. iterator()方法:返回HashSet的迭代器。

  2. toArray()方法:返回一个包含HashSet中所有元素的Object数组。

  3. toArray(T[] a)方法:返回一个包含HashSet中所有元素的泛型数组。

  4. clone()方法:克隆当前HashSet。

  5. equals(Object o)方法:判断当前HashSet是否与另一个对象o相等。

  6. hashCode()方法:返回当前HashSet的哈希码。

  7. retainAll(Collection<?> c)方法:保留HashSet与另一个集合c中相同的元素,删除不同的元素。

  8. removeAll(Collection<?> c)方法:删除HashSet中与另一个集合c中相同的元素。

测试用例

package com.demo.javase.day62;

import java.util.HashSet;
import java.util.Iterator;

/**
 * @Author bug菌
 * @Date 2023-11-06 10:54
 */
public class HashSetTest {
   
   

    public static void main(String[] args) {
   
   
        // 创建一个空的HashSet
        HashSet<String> set = new HashSet<>();

        // 添加元素到HashSet中
        set.add("A");
        set.add("B");
        set.add("C");
        set.add("D");
        set.add("E");

        // 判断HashSet是否包含某个元素
        System.out.println(set.contains("D"));

        // 删除HashSet中的某个元素
        set.remove("B");

        // 获取HashSet的大小
        System.out.println(set.size());

        // 遍历HashSet
        Iterator<String> it = set.iterator();
        while (it.hasNext()) {
   
   
            System.out.println(it.next());
        }

        // 清空HashSet
        set.clear();

        // 判断HashSet是否为空
        System.out.println(set.isEmpty());
    }
}

测试结果

  根据如上测试用例,本地测试结果如下,仅供参考,你们也可以自行修改测试用例或者添加更多的测试数据或测试方法,进行熟练学习以此加深理解。

在这里插入图片描述

测试代码分析

  根据如上测试用例,在此我给大家进行深入详细的解读一下测试代码,以便于更多的同学能够理解并加深印象。

  此代码演示了如何使用HashSet。首先,它创建了一个空的HashSet并添加了五个元素。然后,它检查HashSet是否包含一个给定的元素“D”,并删除元素“B”。接下来,它打印HashSet的大小并遍历HashSet并打印每个元素。然后,它清空HashSet并检查HashSet是否为空。此代码演示了如何使用HashSet。首先,它创建了一个空的HashSet并添加了五个元素。然后,它检查HashSet是否包含一个给定的元素“D”,并删除元素“B”。接下来,它打印HashSet的大小并遍历HashSet并打印每个元素。然后,它清空HashSet并检查HashSet是否为空。

小结

  本篇文章深入分析了Java中HashSet的底层实现原理,包括源代码解析、应用场景案例、优缺点分析、类代码方法介绍和测试用例。通过学习HashSet的底层实现原理,我们能够更好地理解HashSet的使用和优化,并且能够更好地应用HashSet来解决实际问题。

总结

  本篇文章深入分析了Java中HashSet的底层实现原理,包括源代码解析、应用场景案例、优缺点分析、类代码方法介绍和测试用例。从源代码解析可以看出HashSet是基于HashMap实现的,添加元素的方法是add()方法,它将元素作为key,"PRESENT"常量作为value加入map中,成功返回true,失败返回false。HashSet的优点包括去重、快速查找和高效率,缺点包括无序和线程不安全。常用方法包括iterator()、toArray()、clone()等,测试用例包括添加元素、判断是否包含元素、遍历、删除元素等。

  ...
  好啦,这期的内容就基本接近尾声啦,若你想学习更多,可以参考这篇专栏总结《「滚雪球学Java」教程导航帖》,本专栏致力打造最硬核 Java 零基础系列学习内容,🚀打造全网精品硬核专栏,带你直线超车;欢迎大家订阅持续学习。

附录源码

  如上涉及所有源码均已上传同步在「Gitee」,提供给同学们一对一参考学习,辅助你更迅速的掌握。

☀️建议/推荐你


  无论你是计算机专业的学生,还是对编程有兴趣的小伙伴,都建议直接毫无顾忌的学习此专栏「滚雪球学Java」,bug菌郑重承诺,凡是学习此专栏的同学,均能获取到所需的知识和技能,全网最快速入门Java编程,就像滚雪球一样,越滚越大,指数级提升。

  最后,如果这篇文章对你有所帮助,帮忙给作者来个一键三连,关注、点赞、收藏,您的支持就是我坚持写作最大的动力。


目录
相关文章
|
9月前
|
Java 开发者
重学Java基础篇—Java类加载顺序深度解析
本文全面解析Java类的生命周期与加载顺序,涵盖从加载到卸载的七个阶段,并深入探讨初始化阶段的执行规则。通过单类、继承体系的实例分析,明确静态与实例初始化的顺序。同时,列举六种触发初始化的场景及特殊场景处理(如接口初始化)。提供类加载完整流程图与记忆口诀,助于理解复杂初始化逻辑。此外,针对空指针异常等问题提出排查方案,并给出最佳实践建议,帮助开发者优化程序设计、定位BUG及理解框架机制。最后扩展讲解类加载器层次与双亲委派机制,为深入研究奠定基础。
333 0
|
12月前
|
人工智能 自然语言处理 Java
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
FastExcel 是一款基于 Java 的高性能 Excel 处理工具,专注于优化大规模数据处理,提供简洁易用的 API 和流式操作能力,支持从 EasyExcel 无缝迁移。
2585 65
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
|
10月前
|
存储 缓存 安全
Java HashMap详解及实现原理
Java HashMap是Java集合框架中常用的Map接口实现,基于哈希表结构,允许null键和值,提供高效的存取操作。它通过哈希函数将键映射到数组索引,并使用链表或红黑树解决哈希冲突。HashMap非线程安全,多线程环境下需注意并发问题,常用解决方案包括ConcurrentHashMap和Collections.synchronizedMap()。此外,合理设置初始化容量和加载因子、重写hashCode()和equals()方法有助于提高性能和避免哈希冲突。
564 17
Java HashMap详解及实现原理
|
9月前
|
存储 设计模式 Java
重学Java基础篇—ThreadLocal深度解析与最佳实践
ThreadLocal 是一种实现线程隔离的机制,为每个线程创建独立变量副本,适用于数据库连接管理、用户会话信息存储等场景。
294 5
|
9月前
|
存储 监控 安全
重学Java基础篇—类的生命周期深度解析
本文全面解析了Java类的生命周期,涵盖加载、验证、准备、解析、初始化、使用及卸载七个关键阶段。通过分阶段执行机制详解(如加载阶段的触发条件与技术实现),结合方法调用机制、内存回收保护等使用阶段特性,以及卸载条件和特殊场景处理,帮助开发者深入理解JVM运作原理。同时,文章探讨了性能优化建议、典型异常处理及新一代JVM特性(如元空间与模块化系统)。总结中强调安全优先、延迟加载与动态扩展的设计思想,并提供开发建议与进阶方向,助力解决性能调优、内存泄漏排查及框架设计等问题。
387 5
|
9月前
|
机器学习/深度学习 人工智能 Java
Java机器学习实战:基于DJL框架的手写数字识别全解析
在人工智能蓬勃发展的今天,Python凭借丰富的生态库(如TensorFlow、PyTorch)成为AI开发的首选语言。但Java作为企业级应用的基石,其在生产环境部署、性能优化和工程化方面的优势不容忽视。DJL(Deep Java Library)的出现完美填补了Java在深度学习领域的空白,它提供了一套统一的API,允许开发者无缝对接主流深度学习框架,将AI模型高效部署到Java生态中。本文将通过手写数字识别的完整流程,深入解析DJL框架的核心机制与应用实践。
525 3
|
9月前
|
安全 IDE Java
重学Java基础篇—Java Object类常用方法深度解析
Java中,Object类作为所有类的超类,提供了多个核心方法以支持对象的基本行为。其中,`toString()`用于对象的字符串表示,重写时应包含关键信息;`equals()`与`hashCode()`需成对重写,确保对象等价判断的一致性;`getClass()`用于运行时类型识别;`clone()`实现对象复制,需区分浅拷贝与深拷贝;`wait()/notify()`支持线程协作。此外,`finalize()`已过时,建议使用更安全的资源管理方式。合理运用这些方法,并遵循最佳实践,可提升代码质量与健壮性。
260 1
|
9月前
|
传感器 监控 Java
Java代码结构解析:类、方法、主函数(1分钟解剖室)
### Java代码结构简介 掌握Java代码结构如同拥有程序世界的建筑蓝图,类、方法和主函数构成“黄金三角”。类是独立的容器,承载成员变量和方法;方法实现特定功能,参数控制输入环境;主函数是程序入口。常见错误包括类名与文件名不匹配、忘记static修饰符和花括号未闭合。通过实战案例学习电商系统、游戏角色控制和物联网设备监控,理解类的作用、方法类型和主函数任务,避免典型错误,逐步提升编程能力。 **脑图速记法**:类如太空站,方法即舱段;main是发射台,static不能换;文件名对仗,括号要成双;参数是坐标,void不返航。
352 5
|
10月前
|
Java API 数据处理
深潜数据海洋:Java文件读写全面解析与实战指南
通过本文的详细解析与实战示例,您可以系统地掌握Java中各种文件读写操作,从基本的读写到高效的NIO操作,再到文件复制、移动和删除。希望这些内容能够帮助您在实际项目中处理文件数据,提高开发效率和代码质量。
245 4
|
10月前
|
XML JSON Java
Java中Log级别和解析
日志级别定义了日志信息的重要程度,从低到高依次为:TRACE(详细调试)、DEBUG(开发调试)、INFO(一般信息)、WARN(潜在问题)、ERROR(错误信息)和FATAL(严重错误)。开发人员可根据需要设置不同的日志级别,以控制日志输出量,避免影响性能或干扰问题排查。日志框架如Log4j 2由Logger、Appender和Layout组成,通过配置文件指定日志级别、输出目标和格式。

推荐镜像

更多
  • DNS