HashMap(深入源码追踪)

一篇让你搞懂HashMap的几个最重要的知识点,往源码跟踪可以让我们很轻松应对所谓的一些八股面试题.

一. 属性解释

先来解释HashMap中重要的常量属性值

  •  DEFAULT_INITIAL_CAPACITY  : 默认初始化容量,也就是如果不指定初始化的Map存储容量大小,默认生成一个存储16个空间的Map集合
  • MAXIMUM_CAPACITY : 最大容量,也就是Map中最多存储 (1 << 30)个节点
  • DEFAULT_LOAD_FACTOR: 加载因子,默认为0.75.加载因子的作用就是用来计算HashMap中存储多少节点时需要进行扩容操作.
  • TREEIFY_THRESHOLD: 树化阈值.也就是当链表长度大于等于8时,链表可能进行树化操作(这里还需要满足一个Map容量大于等于64条件才可以进行树化).
  • UNTREEIFY_THRESHOLD: 非树化阈值,当链表节点小于等于6时,树化结构将会退化为链表结构.
  • MIN_TREEIFY_CAPACITY: 最小树化容量,也就是当即满足链表长度大于等于8,又满足此时Map容量为大于等于64时,链表将会进行树化操作.

借用这些属性,我们先来简单看一下,我们在New一个HashMap的时候,会发生什么事情

1.1 构造函数

调用无参构造时

我们发现HashMap并没有去做初始化的操作,仅仅只是把加载因子赋值了默认的加载因子值(0.75f)

HashMap还提供了其他几个构造方法,我们先来看看我们如果指定初始容量的构造函数

继续跟进

我们发现仅仅也就是给加载因子赋值为默认加载因子值(0.75f),这里还赋值了一个threshold.这是个什么东西?

我们再去查看一下HashMap其他属于每一个HashMap对象的属性值

  • table : 表,实际上就是哈希表,用来存储我们放的元素的存储结构.存放的是一个Node节点.
  • entrySet: 含义是键值对,可以理解为我们将一个Map的映射当成了一个对象.也就是(k,v)当成一个整体
  • size: 存放元素的数量.
  • modCount: 这个是用来帮助检测集合在迭代过程中是否被修改.为设计快速失败的实现。这意味着如果在创建迭代器之后,集合被以任何方式修改(除了通过迭代器自身的 remove 方法),迭代器将抛出 ConcurrentModificationException
  • threshold: 阈值.这个属性其实有两种代表意思,在中间状态时表示的时数组最大能发多少元素,随后又表明为扩容时机,数组存储多少元素时将进行扩容.
  • loadFactor: 加载因子,也就是用来计算阈值的一个乘积因子.

我们再回到之前那个式子,说明此时仅仅只是调整Map能够存储的最大容量.

我们查看一下tableSizeFor这个方法

这里做了两个事情,第一步算出( 当前容量 - 1 )后的前导零的数目,假设就是16,此时算出其减一后的前导0就是28, -1无符号右移28位也就是得到n = 15. 然后判断此时n是否小于0,小于则为1,不小于再判断是否大于设置的最大容量,如果是则调整为最大容量,不是就+1.其实也就是在做一个存放节点数量的适配,限制数组的大小.

二. 存储

在刚刚的叙述中,我们发现了,当我们调用HashMap的构造函数中,并没有去完成table的初始化.仅仅只是对加载因子与阈值做了相应的赋值操作.

如果此时不进行初始化,那么基本只有一种可能,就是我们在存放元素的过程中,将他给初始化了.

我们来查看一下HashMap的put方法

2.1 扰动函数

键的hash方法调用运算,也叫扰动函数.

通过调用hashCode的方法计算key的哈希值,并通过与 哈希值无符号右移16位进行异或运算得到最后的哈希值.也就是将计算的哈希值高位与低位充分组合,使低位也受到高位的影响.这样的设计增加了哈希值的随机性,降低了哈希冲突的概率。异或操作使得低位的特征影响到高位, 减少了相同低位的哈希值导致相同索引位置的情况。

2.1.1 那这里可以提出一个疑问,为什么这样就可以减少哈希冲突呢?

哈希冲突(Hash Collision): 是指在哈希表中,两个不同的输入(即键)经过哈希函数计算后得到了相同的哈希值(即哈希码或哈希地址),从而导致这两个输入被映射到哈希表的同一个槽位(或称为桶)上.

只要哈希函数映射的比较均匀,一般来讲是很难出现哈希碰撞的.

Java当中key的hashCode计算,返回的是一个int型的散列值.那么int值的范围会是-2147483648~2147483647.

加起来也就是需要40亿的一个映射的空间.如果我们使用一个40亿的数组来存放哈希值映射的值,内存是放不下的.所以只可能缩小数组的空间,那缩小,冲突的概率就会提高.那在这样一个前提下,我们想去使数据均匀分布,设计扰动函数是很关键的一步.

注意: 这里讨论的是尽量避免哈希冲突,也就是更希望他能够均匀的落在数组上,而不是我们后面的处理方式能通过链表来解决.

假设HashMap的数组初始容量为16, 就需要用之前哈希函数计算的哈希值对数组的长度进行取模运算来获取余数得到访问数组的下标.

而源码当中实际上是将( 数组长度- 1) 然后与哈希值做 与运算 ,计算机里 位运算比取余 % 运 算要快

这里其实也正好解释了,为什么HashMap的数组长度要取2的整数幂. 因为这样(数组长度 - 1)正好相当于一个 “低位掩码”.操作的结果就是散列值的高位 全部归零,只保留低位值,用来做数组下标访问。以初始长度 16 为例,16-1=15。2 进制表示是0000 1111 。和某个散列值做 操作如下,结果就是截取了最低的四位值。

这样是要会快捷一些,但是新的问题来了,就算散列值分布再松散,要是只取最后几位的话,碰撞也会很严重。

此时扰动函数的作用就出来啦右移16 位,正好是32位的一半,自己的高半区和低半区做异或,就是为了混合原始哈希码的高位和低位,以此来加大低位的随机性。而且混合后的低位掺杂了高位的部分特征,这样高位的信息也被变相保留下来。

2.2 初始化

我们继续往下看,查看putVal方法

这里解释一个参数:

  • boolean onlyIfAbsent: 一个布尔值,指示如果键已经存在,是否应该更新其值。如果为 true,则仅当键不存在时才插入键值对;如果为 false,则无论键是否存在,都更新其值。

我们发现定义一个tab,并将hashmap的成员变量table赋值于它,而我们也清楚此时table应该还未初始化,为null值,我们也可以debug查看.

所以接下来将会进入resize()方法.

2.2.1 扩容方法 resize()

resize方法其实就是扩容方法.这里分为三个阶段

  1. 已经经历初始化的哈希表
  2. 调用了赋值初始容量的构造函数
  3. 无参构造

我们这里先来查看无参构造时的扩容初始化(实际上第2个与第三个是一致的,代码流程只有可能执行一次).

我们查看到oldTable实际上就是我们的table成员变量.很明显,oldCap 与 oldThr应该为0(调用无参构造时),

所以此时会进入红框的代码,查看到将默认的初始容量以及默认的阈值为默认容量乘以默认加载因子赋值给了newCap与newThr.再看接下来的

此时我们才看到newTab被进行了初始化,赋予了空间,并赋值给了table.此时才完成了HashMap容量的初始化.

随后返回

将resize后的长度赋给了n,然后利用 数组长度 - 1 与 哈希值做与运算得到数组下标的映射,将值赋给p,判断是否为null,为null则直接给这个槽位附上一个新的结点.

这里补充一下Node结构,查看下图

查看Node结构,我们也能发现我们调用put,put调用putVal时,传参本质就是在拼凑这个Node值.

我们再来查看放完值后执行了哪些流程

我们发现这里会对modCount++,最主要是我们在添加完元素之后,会进行判断现在Map中存放元素的数量是否达到阈值,如果达到,再次调用了resize扩容操作.也就是说,我们是在放完元素之后才去判定是否需要进行扩容,而不是放元素之前去判断是否需要扩容.

我们再去查看一下对应resize的代码

这里也就是判断,原哈希桶是否已经大于最大容量的限制,如果大于设置阈值为整数最大值,返回原来的哈希表(达到最大容量后不会再进行扩容).否则便把数组容量以及阈值重新扩容到原来的2倍.

2.2.2 链表与树化扩容

重点是接下来的过程,如何将原来的哈希表复制到新的哈希表中,我们来看看源码怎么执行的

首先,将当前数组中的元素赋给e,判断是否为null,为null说明当前此处没有元素直接结束.如果有,将当前数组中j索引处设置为null,判断e有没有下一个结点,如有没有,则直接将当前结点重新进行 (数组长度 - 1) & e.hash 运算,将其转移到新的哈希表中.

否则,判定是否为树节点,如果是则走树节点的扩容赋值过程.

如果不是树节点,则就是链表结点,将会以链表的扩容赋值过程实现.

我们先看看链表结构是怎么实现扩容复制转移的.

我以一张图来表明链表复制转移的过程

我们再来看看树结构是如何进行扩容赋值的

发现没有,几乎与链表的形式一模一样,所以可能猜想,链表结构转为红黑树后,红黑树内部可能还存在着原来链表结构的关系,这里依旧可以使用链表遍历的形式,不过我现在还没有证实,只是一个猜想.

我们再看后面是怎么处理的

它会进行判定,如果当前树结构的节点小于等于退化阈值,则会调用退化方法,将红黑树退化成链表.如果不是,则将这样的一个结点放入新容器中,不过这里我们查看, 放完之后,它调用了loHead.treeify()方法,说明它将以这样一个头结点的结构进行树化了,这更加说明我的猜想应该是正确的.

画一张图来总结一下树化扩容赋值的过程.

2.3 演示扩容现象

我们可以查看一下,扩容产生的现象,我们尝试放入13个元素,来查看HashMap中的table属性的长度是否为扩容后的32大小.测试代码如下

debug运行,查看测试结果,查看到已完成对应的扩容.

2.4 put过程

前面我们已经完成了扩容现象的观察.还没有仔细看看put的过程.回过头查看一下具体执行的流程.

在前面的过程中,1阶段我已经解释过,我们来查看后面的2,3阶段.

第2阶段实际上就是判断 (数组大小 - 1) & key.hash 索引处有没有结点,如果没有,直接放入.

如果有,将进行链表或者树两种结构的判断来决定已什么的遍历方式来存放结点.

三. 取出

我们来查看get方法

其实我们理解了存储的过程,这一块就很简单理解了

  • 第一步: 判断当前哈希表是否被初始化, 判断当前查找元素的hash映射到数组中这个元素是否存在.不存在直接返回null
  • 第二步: 存在则判断是否是相同的,相同则直接返回.
  • 第三步: 不相同的话判断是树节点还是链表结点.如果是树则由树的遍历方式进行,如果是链表的话,就以链表的方式遍历.

四. 删除

我们来查看一下remove方法,会发现一件好像很巧合的事情.

我们会发现红框处跟取出结点的代码一模一样,其实删除或者修改也好,前提都得找到对应的结点,所以这里才有一模一样的代码.

而后续操作还是老掉牙的一套,是红黑树结点则以红黑树的方式来删除.如果node == p(意思就是查找的元素就是数组上的元素), 直接让此数组索引处存放这个结点的下一个结点. 其他情况,那就说明是链表结构的删除结点,这里的p代表的是删除结点的前驱节点,所以只需要 p.next = node.next即可.

五. 快速失败

我们之前在查看源码时,我们观察到还有一个属性modCount.其实这个就是记录我们操作map的次数,但是呢,这里会出现一个问题.

无论是put方法还是remove的方法,我们观察到都会使modCount++.

而如果我们采用HashMap中重写的foreach的方法遍历我们可以查看到

或者是采用EntrySet的迭代器遍历

我们都会发现有一段逻辑,在执行我们的遍历逻辑的前后,会有执行后的modCount 与执行前的mc值的比较,如果不等于,就会抛出异常.

其实也就是告诉我们,如果在使用这两个方式遍历时,不能使用map中的put或者remove方法,否则会抛出这样的异常.那有时候我们确确实实需要遍历时删除元素呢?

两种方式

删除时我们可以不用调用map的remove的方法,而是调用迭代器的remove的方法

或者采用最普通的for循环遍历,将map大小提出来,再进行遍历.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/913228.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MySQL中的事务与锁

目录 事务 InnoDB 和 ACID 模型 原⼦性的实现 持久性的实现 ​隔离性的实现 锁 隔离级别 ​多版本控制(MVCC) 事务 1.什么是事务? 事务是把⼀组SQL语句打包成为⼀个整体&#xff0c;在这组SQL的执⾏过程中&#xff0c;要么全部成功&#xff0c;要么全部失败&#…

C#开发基础:WPF和WinForms关于句柄使用的区别

1、前言 在 Windows 应用程序开发中&#xff0c;WPF&#xff08;Windows Presentation Foundation&#xff09;和 WinForms&#xff08;Windows Forms&#xff09;是两种常见的用户界面&#xff08;UI&#xff09;框架。它们各自有不同的架构和处理方式&#xff0c;其中一个显…

基于.NET开源、功能强大且灵活的工作流引擎框架

前言 工作流引擎框架在需要自动化处理复杂业务流程、提高工作效率和确保流程顺畅执行的场景中得到了广泛应用。今天大姚给大家推荐一款基于.NET开源、功能强大且灵活的工作流引擎框架&#xff1a;elsa-core。 框架介绍 elsa-core是一个.NET开源、免费&#xff08;MIT License…

.NET6中WPF项目添加System.Windows.Forms引用

.NET6中WPF项目添加System.Windows.Forms引用 .NET6的WPF自定义控件默认是不支持System.Windows.Forms引用的&#xff0c;需要添加这个引用方法如下&#xff1a; 1. 在项目浏览器中找到项目右击&#xff0c;选择编辑项目文件&#xff08;Edit Project File&#xff09;。 …

16.UE5拉怪机制,怪物攻击玩家,伤害源,修复原视频中的BUG

2-18 拉怪机制&#xff0c;怪物攻击玩家、伤害源、黑板_哔哩哔哩_bilibili 目录 1.实行行为树实现拉怪机制 1.1行为树黑板 1.2获取施加伤害对象&#xff08;伤害源&#xff09; 2.修复原视频中&#xff0c;第二次攻击怪物后&#xff0c;怪物卡在原地不动的BUG 3.怪物攻击玩…

<项目代码>YOLOv8 草莓成熟识别<目标检测>

YOLOv8是一种单阶段&#xff08;one-stage&#xff09;检测算法&#xff0c;它将目标检测问题转化为一个回归问题&#xff0c;能够在一次前向传播过程中同时完成目标的分类和定位任务。相较于两阶段检测算法&#xff08;如Faster R-CNN&#xff09;&#xff0c;YOLOv8具有更高的…

Vue全栈开发旅游网项目(9)-用户登录/注册及主页页面开发

1.用户登录页面开发 1.查询vant组件 2.实现组件模板部分 3.模型层准备 4.数据上传 1.1 创建版权声明组件Copyright 新建文件&#xff1a;src\components\common\Copyright.vue <template><!-- 版权声明 --><div class"copyright">copyright xx…

后台管理系统窗体程序:文章管理 > 文章列表

目录 文章列表的的功能介绍&#xff1a; 1、进入页面 2、页面内的各种功能设计 &#xff08;1&#xff09;文章表格 &#xff08;2&#xff09;删除按钮 &#xff08;3&#xff09;编辑按钮 &#xff08;4&#xff09;发表文章按钮 &#xff08;5&#xff09;所有分类下拉框 &a…

【万字详解】如何在微信小程序的 Taro 框架中设置静态图片 assets/image 的 Base64 转换上限值

设置方法 mini 中提供了 imageUrlLoaderOption 和 postcss.url 。 其中&#xff1a; config.limit 和 imageUrlLoaderOption.limit 服务于 Taro 的 MiniWebpackModule.js &#xff0c; 值的写法要 &#xff08;&#xff09;KB * 1024。 config.maxSize 服务于 postcss-url 的…

基于STM32通过TM1637驱动4位数码管详细解析(可直接移植使用)

目录 1. 单位数码管概述 2. 对应编码 2.1 共阳数码管 2.2 共阴数码管 3. TM1637驱动数码管 3.1 工作原理 3.1.1 读键扫数据 3.1.2 显示器寄存器地址和显示模式 3.2 时序 3.2.1 指令数据传输过程&#xff08;读案件数据时序&#xff09; 3.2.2 写SRAM数据…

数字信号处理Python示例(11)生成非平稳正弦信号

文章目录 前言一、生成非平稳正弦信号的实验设计二、生成非平稳正弦信号的Python代码三、仿真结果及分析写在后面的话 前言 本文继续给出非平稳信号的Python示例&#xff0c;所给出的示例是非平稳正弦信号&#xff0c;在介绍了实验设计之后给出Python代码&#xff0c;最后给出…

Linux 系统结构

Linux系统一般有4个主要部分&#xff1a;内核、shell、文件系统和应用程序。内核、shell和文件系统一起形成了基本的操作系统结构&#xff0c;它们使得用户可以运行程序、管理文件并使用系统。 1. linux内核 内核是操作系统的核心&#xff0c;具有很多最基本功能&#xff0c;它…

网络安全之SQL初步注入

一.字符型 平台使用pikachu $name$_GET[name]; ​ $query"select id,email from member where username$name"; 用户输入的数据会被替换到SQL语句中的$name位置 查询1的时候&#xff0c;会展示username1的用户数据&#xff0c;可以测试是否有注入点&#xff08;闭…

【IEEE/EI会议】第八届先进电子材料、计算机与软件工程国际学术会议(AEMCSE 2025)

会议通知 会议时间&#xff1a;2025年4月25-27日 会议地点&#xff1a;中国南京 会议官网&#xff1a;www.aemcse.org 会议简介 第八届先进电子材料、计算机与软件工程国际学术会议&#xff08;AEMCSE 2025&#xff09;由南京信息工程大学主办&#xff0c;将于2025年4月25日…

华为海思招聘-芯片与器件设计工程师-模拟芯片方向- 机试题-真题套题题目——共8套(每套四十题)

华为海思招聘-芯片与器件设计工程师-模拟芯片方向- 机试题-真题套题题目分享——共九套&#xff08;每套四十题&#xff09; 岗位——芯片与器件设计工程师 岗位意向——模拟芯片 真题题目分享&#xff0c;完整题目&#xff0c;无答案&#xff08;共8套&#xff09; 实习岗位…

Python——数列1/2,2/3,3/4,···,n/(n+1)···的一般项为Xn=n/(n+1),当n—>∞时,判断数列{Xn}是否收敛

没注释的源代码 from sympy import * n symbols(n) s n/(n1) print(数列的极限为&#xff1a;,limit(s,n,oo))

104、Python并发编程:基于事件Event实现多线程间的同步

引言 继续介绍关于多线程同步的实现方式&#xff0c;本文将介绍基于Event的线程同步方式。 本文的主要内容有&#xff1a; 1、什么是Event 2、Event的使用场景 3、Event的代码实例 4、Event与Condition的比较 什么是Event 在Python的多线程编程中&#xff0c;Event是一个…

首次超越扩散模型和非自回归Transformer模型!字节开源RAR:自回归生成最新SOTA!

文章链接&#xff1a;https://arxiv.org/pdf/2411.00776 项目链接&#xff1a;https://yucornetto.github.io/projects/rar.html 代码&模型链接&#xff1a;https://github.com/bytedance/1d-tokenizer 亮点直击 RAR&#xff08;随机排列自回归训练策略&#xff09;&#x…

IDEA在编译时: java: 找不到符号符号: 变量 log

一、问题 IDEA在编译的时候报Error:(30, 17) java: 找不到符号符号: 变量 log Error:(30, 17) java: 找不到符号 符号: 变量 log 位置: 类 com.mokerson.rabbitmq.config.RabbitMqConfig 二、解决方案 背景&#xff1a;下载其他同事代码时&#xff0c;第一次运行&#xff0c…

【Hadoop实训】Hive 数据操作②

延续上一篇文章&#xff0c;不懂的宝子们请看以下链接&#xff1a; 【Hadoop实训】Hive 数据操作①-CSDN博客 目录 一、Group by 语句 (1)、计算emp表每个部门的平均工资 (2)、计算emp表每个部门中每个岗位的最高工资 二、Having 语句 (1)、求每个部门的平均工资 (2)、求每个…