【学习笔记】数据结构与算法04:哈希表、哈希冲突、哈希算法

知识出处:Hello算法:https://www.hello-algo.com/

文章目录

    • 2.3 哈希表
      • 2.3.1 哈希表「 hash table」
        • 2.3.1.1 哈希表常见操作
        • 2.3.1.2 哈希表的简单实现
        • 2.3.1.3 哈希冲突与扩容
      • 2.3.2 哈希冲突
        • 2.3.2.1 「链式地址 separate chaining」
        • 2.3.2.2 「开放寻址 open addressing」
          • **线性探测**
          • 平方探测
          • 多次哈希

2.3 哈希表

2.3.1 哈希表「 hash table」

又称「散列表」,通过建立键 key 与值 value 之间的映射,实现高效的元素查询。

哈希表的抽象表示

哈希表的查询、添加、删除元素的时间复杂度均为 O(1) ,非常高效。对比链表、数组如下:

image-20240221151534065

思考:哈希表底层实现是数组、链表、二叉树,但为什么效率可以比它们更高呢?

A:首先,哈希表的时间效率变高,但空间效率变低了。哈希表本身需要更多的空间,而且相当一部分内存未使用。

其次,只是在特定使用场景下时间效率变高了。如果一个功能能够在相同的时间复杂度下使用数组或链表实现,那么通常比哈希表更快。这是因为哈希函数计算需要开销,时间复杂度的常数项更大。

因为是用到了函数渐进上界的数学思想去计算时间复杂度,在实际场景中,输入n不大时,常数项对耗时的影响还是比较大的,这也是为什么会反直觉的原因

2.3.1.1 哈希表常见操作

常见操作包括:初始化、查询操作、添加键值对和删除键值对

有三种常用的遍历方式:遍历键值对KV、遍历键KEY和遍历值VALUE

Java中提供了Map接口和极其丰富的实现类,用比较常用的HashMap举例:

/* 初始化哈希表 */
Map<Integer, String> map = new HashMap<>();

/* 添加操作 */
// 在哈希表中添加键值对 (key, value)
map.put(12836, "小哈");
map.put(15937, "小啰");
map.put(16750, "小算");
map.put(13276, "小法");
map.put(10583, "小鸭");
System.out.println("\n添加完成后,哈希表为\nKey -> Value");
PrintUtil.printHashMap(map);

/* 查询操作 */
// 向哈希表中输入键 key ,得到值 value
String name = map.get(15937);
System.out.println("\n输入学号 15937 ,查询到姓名 " + name);

/* 删除操作 */
// 在哈希表中删除键值对 (key, value)
map.remove(10583);
System.out.println("\n删除 10583 后,哈希表为\nKey -> Value");
PrintUtil.printHashMap(map);

/* 遍历哈希表 */
System.out.println("\n遍历键值对 Key->Value");
for (Map.Entry<Integer, String> kv : map.entrySet()) {
    System.out.println(kv.getKey() + " -> " + kv.getValue());
}
System.out.println("\n单独遍历键 Key");
for (int key : map.keySet()) {
    System.out.println(key);
}
System.out.println("\n单独遍历值 Value");
for (String val : map.values()) {
    System.out.println(val);
}
2.3.1.2 哈希表的简单实现

我们先考虑最简单的情况,仅用一个数组来实现哈希表

  • 将数组中的每个空位称为「桶 bucket」,每个桶可存储一个键值对。(查询操作就是通过key找到桶bucket
  • 如何基于 key 定位对应的桶呢?这是通过**「哈希函数 hash function」**实现的。(哈希函数是一个单向的映射函数,可以将一个较大的输入空间映射到一个较小的输出空间。
  • 在哈希表中,输入空间是所有 key ,输出空间是所有桶(数组索引)。
  • 换句话说,输入一个 key我们可以通过哈希函数得到该 key 对应的键值对在数组中的存储位置

哈希函数工作原理

2.3.1.3 哈希冲突与扩容

从本质上看,哈希函数的作用是将所有 key 构成的输入空间映射到数组所有索引构成的输出空间,而输入空间往往远大于输出空间。因此,理论上一定存在“多个输入对应相同输出”的情况。当出现这种情况,就叫「哈希冲突 hash collision」。

哈希冲突示例

最简单的解决方法,就是通过扩容来实现,理论上,输出空间越接近输入空间,出现哈希冲突的几率就更小

最极端的情况,直接将value作为key存储,时间会从O(1)劣化到O(n)

但是缺点也很明显,哈希扩容类似数组扩容,也是需要迁移到新表才能实现,非常耗时空。而且每次扩容都意味着需要使用新的哈希函数重新计算,这进一步增加了扩容过程的计算开销。为此,编程语言通常会预留足够大的哈希表容量,防止频繁扩容。

「负载因子 load factor」是哈希表的一个重要概念,其定义为哈希表的元素数量除以桶数量,用于衡量哈希冲突的严重程度,也常作为哈希表扩容的触发条件

例如在 Java 中,当负载因子超过 0.75 时,系统会将哈希表扩容至原先的 2 倍。


2.3.2 哈希冲突

前面提到,解决哈希冲突可以通过直接暴力扩容解决,但是效率低下,为了提高效率,我们可以采用以下策略。

  1. 改良哈希表数据结构,使得哈希表可以在出现哈希冲突时正常工作
  2. 仅在必要时,即当哈希冲突比较严重时,才执行扩容操作。

哈希表的结构改良方法主要包括“链式地址”和“开放寻址”。

2.3.2.1 「链式地址 separate chaining」

将原始哈希表中,每个桶的值转换为链表的形式,将键值对作为链表节点,将所有发生冲突的键值对都存储在同一链表中。

链式地址哈希表

操作变化

  • 查询元素:输入 key ,经过哈希函数得到桶索引,即可访问链表头节点,然后遍历链表并对比 key 以查找目标键值对。
  • 添加元素:首先通过哈希函数访问链表头节点,然后将节点(键值对)添加到链表尾部
  • 删除元素:根据哈希函数的结果访问链表头部,接着遍历链表以查找目标节点并将其删除。

局限性

链式地址存在以下局限性。

  • 占用空间增大:链表包含节点指针,它相比数组更加耗费内存空间。
  • 查询效率降低:因为需要线性遍历链表来查找对应元素。(值得注意的是,当链表很长时,查询效率 O(n) 很差。此时可以将链表转换为“AVL 树”或“红黑树”,从而将查询操作的时间复杂度优化至 O(log⁡n) 。
2.3.2.2 「开放寻址 open addressing」

当出现哈希冲突时,「开放寻址 open addressing」不引入额外的数据结构,而是通过“多次探测”来处理哈希冲突(按照一定的规则向后探测/查找空桶并存入),根据探测规则的不同探测方式主要包括线性探测、平方探测和多次哈希等。

三者特点差不多,以线性探测为例进行分析。

线性探测

线性探测采用固定步长的线性搜索来进行探测,其操作方法与普通哈希表有所不同。

在开放寻址中删除元素导致的查询问题

插入元素

  • 通过哈希函数计算桶索引,若没有元素,则进行正常插入。
  • 若发现桶内已有元素(哈希冲突),则从冲突位置向后线性遍历(步长通常为 1 ),直至找到空桶,将元素插入其中。

查找元素

  • 通过哈希函数计算桶索引,找到键值对进行匹配,成功则返回value

  • 若发现哈希冲突,则使用相同步长向后进行线性遍历,直到找到对应元素,返回 value 即可;

  • 如果遇到空桶,说明目标元素不在哈希表中,返回 None

删除元素:

  • 不难发现,使用开放寻址的哈希表是不能直接删除元素的。直接删除查询到的元素会导致寻址规则被破坏。
  • 为了解决该问题,我们可以采用「懒删除 lazy deletion」机制:它不直接从哈希表中移除元素,而是利用一个常量 TOMBSTONE(也可以理解为删除标记) 来标记这个桶
  • 然而,懒删除可能会加速哈希表的性能退化

聚集现象

线性探测容易产生“聚集现象”。具体来说,数组中连续被占用的位置越长,这些连续位置发生哈希冲突的可能性越大,从而进一步促使该位置的聚堆生长,形成恶性循环,最终导致增删查改操作效率劣化。

平方探测

平方探测与线性探测类似,当发生冲突时,而是跳过“探测次数的平方”的步数( 1,4,9,… 步)

平方探测主要具有以下优势

  • 平方探测通过跳过探测次数平方的距离,试图缓解线性探测的聚集效应。
  • 平方探测会跳过更大的距离来寻找空位置,有助于数据分布得更加均匀。

然而,平方探测并不是完美的。

  • 仍然存在聚集现象,即某些位置比其他位置更容易被占用。
  • 空间利用不完全,由于平方的增长,平方探测可能不会探测整个哈希表,这意味着即使哈希表中有空桶,平方探测也可能无法访问到它。
多次哈希

顾名思义,多次哈希方法使用多个哈希函数 f1(x)、f2(x)、f3(x)、… 进行探测。

  • 插入元素:若哈希函数 f1(x) 出现冲突,则尝试 f2(x) ,以此类推,直到找到空位后插入元素。
  • 查找元素在相同的哈希函数顺序下进行查找,直到找到目标元素时返回;若遇到空位或已尝试所有哈希函数,说明哈希表中不存在该元素,则返回 None

与线性探测相比,多次哈希方法不易产生聚集,但多个哈希函数会带来额外的计算量。

Tip:

Java 采用链式地址。自 JDK 1.8 以来,当 HashMap数组长度达到 64 且链表长度达到 8 时,链表会转换为红黑树以提升查找性能。

哈希算法

无论是开放寻址还是链式地址,它们只能保证哈希表可以在发生冲突时正常工作,而无法减少哈希冲突的发生

如果哈希冲突过于频繁,哈希表的性能则会急剧劣化。理想情况下键值对均匀分布在各个桶中,达到最佳查询效率,而键值对的分布情况由哈希函数决定。也就说:

当哈希表容量 capacity 固定时,哈希算法 hash() 决定了输出值,进而决定了键值对在哈希表中的分布情况。

哈希算法的目标

为了实现“既快又稳”的哈希表数据结构,哈希算法不能只是简单取余计算,一个优秀哈希算法应具备以下特点。

  • 确定性。相同的输入,哈希算法始终只产生相同的输出,这样才能保证可靠性
  • 效率高。计算花销越小越好,速度越快越好(对比一些加密算法,会要求足够多的计算以保证准确
  • 均匀分布:哈希算法应使得键值对均匀分布在哈希表中。分布越均匀,哈希冲突的概率就越低。

Tip:哈希算法作为一种加密算法,也可以在其他领域发挥作用:比如密码加密,或者验证数据完整性。而对于密码学相关应用,为了防止根据哈希值反推出原始密码的逆向工程,哈希算法则需要兼备更高级的特点:

  • 单向性:无法通过哈希值反推出关于输入数据的任何信息。
  • 抗碰撞性:应当极难找到两个不同的输入,使得它们的哈希值相同。
  • 雪崩效应:输入的微小变化应当导致输出的显著且不可预测的变化。

哈希算法的设计

一些简单的哈希算法思路:

  • 加法哈希:对输入的每个字符的 ASCII 码进行相加,将得到的总和作为哈希值。
  • 乘法哈希:利用乘法的不相关性,每轮乘以一个常数,将各个字符的 ASCII 码累积到哈希值中。
  • 异或哈希:将输入数据的每个元素通过异或操作累积到一个哈希值中。
  • 旋转哈希:将每个字符的 ASCII 码累积到一个哈希值中,每次累积之前都会对哈希值进行旋转操作。

常见哈希算法

不难发现,以上介绍的简单哈希算法都比较“脆弱”,远远没有达到哈希算法的设计目标。

在实际中,我们通常会用一些标准哈希算法,例如 MD5、SHA-1、SHA-2 和 SHA-3 等。它们可以将任意长度的输入数据映射到恒定长度的哈希值。

image-20240221163217977

Java内置了MD5加密和SHA-1的、SHA-256、SHA-384、SHA-512型哈希算法,但实际的hashmap计算远比这些复杂

数据结构的哈希值

哈希表的 key 可以是整数、小数或字符串等数据类型。编程语言通常会为这些数据类型提供内置的哈希算法,用于计算哈希表中的桶索引。

  • 整数和布尔量的哈希值就是其本身
  • 浮点数和字符串的哈希值计算较为复杂,有兴趣的读者请自行学习。
  • 数组的哈希值是对其中每一个元素进行哈希,然后将这些哈希值组合起来,得到单一的哈希值。
  • 对象的哈希值基于其内存地址生成。通过重写对象的哈希方法,可实现基于内容生成哈希值。
int num = 3;
int hashNum = Integer.hashCode(num);
// 整数 3 的哈希值为 3

boolean bol = true;
int hashBol = Boolean.hashCode(bol);
// 布尔量 true 的哈希值为 1231

double dec = 3.14159;
int hashDec = Double.hashCode(dec);
// 小数 3.14159 的哈希值为 -1340954729

String str = "Hello 算法";
int hashStr = str.hashCode();
// 字符串“Hello 算法”的哈希值为 -727081396

Object[] arr = { 12836, "小哈" };
int hashTup = Arrays.hashCode(arr);
// 数组 [12836, 小哈] 的哈希值为 1151158

ListNode obj = new ListNode(0);
int hashObj = obj.hashCode();
// 节点对象 utils.ListNode@7dc5e7b4 的哈希值为 2110121908

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/399766.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数字革命的先锋:探索Web3的无限可能性

随着科技的不断进步&#xff0c;我们正在迎来数字革命的新时代。在这个时代中&#xff0c;Web3技术作为数字革命的先锋&#xff0c;正以其独特的特点和无限的可能性引领着未来的发展方向。本文将深入探索Web3技术的核心原理、应用场景以及对未来的影响&#xff0c;揭示数字革命…

32看门狗

目录 一.看门狗简介 二&#xff0e;代码实现 一.看门狗简介 IWDG的专用时钟是LSI&#xff0c;内部低速时钟 WWDG使用的是APB&#xff11;的时钟&#xff0c;并没有专门的时钟&#xff0c;所以并不独立 如果独立看门狗已经由硬件选项或软件启动&#xff0c; LSI振荡器将被强制…

Aster实现一台电脑当两台使——副屏搭配键鼠

前言&#xff1a;笔者每年回家&#xff0c;都面临着想要和小伙伴一起玩游戏&#xff0c;但小伙伴没有电脑/只有低配电脑的问题。与此同时&#xff0c;笔者自身的电脑是高配置的电脑&#xff0c;因此笔者想到&#xff0c;能否在自己的电脑上运行游戏&#xff0c;在小伙伴的电脑上…

C++从入门到精通 第十二章(C++流)

一、C流的概念 1、C流的体系结构 &#xff08;1&#xff09;C为实现数据的输入输出定义了一系列的流类&#xff0c;这些类之间的派生、继承关系如下图所示&#xff0c;它们之中一部分是用模板实现的&#xff0c;图中用细线框表示&#xff0c;另外图中的虚线表示模板类与模板实…

计算机二级C语言的注意事项及相应真题-5-程序修改

目录 41.累加链表结点数据域中的数据作为函数值返回42.根据整型形参m&#xff0c;计算如下公式的值43.删除数列中值为x的元素44.从N个字符串中找出最长的那个串&#xff0c;并将其地址作为函数值返回45.将两个长度相等的纯数字字符串当作两个加数&#xff0c;求其代表的数值之和…

【Docker】Linux主机部署Docker

Docker部署 1.二进制文件部署 到如下地址&#xff0c;下载二进制包。 Docker官网&#xff1a;https://docs.docker.com/engine/install/binaries/ 网易镜像源&#xff1a;https://mirrors.163.com/docker-ce/linux/static/stable/x86_64/ 下载好的二进制包上传到主机&#xf…

C++项目 -- 高并发内存池(七)性能瓶颈与优化

C项目 – 高并发内存池&#xff08;七&#xff09;性能瓶颈与优化 文章目录 C项目 -- 高并发内存池&#xff08;七&#xff09;性能瓶颈与优化一、检测性能瓶颈二、使用基数树来优化项目1.基数树2.不加锁的原理3.性能对比 三、最终代码实现 一、检测性能瓶颈 DeBug下运行代码&…

015—pandas 标记按月连续变化趋势

前言 在业务数据分析中&#xff0c;特别是和时间相关的数据&#xff0c;会经常要判断数据的变化情况&#xff0c;比如是否是增长还是降低&#xff0c;或是持平。 需求 以数据中最后的月份为基础&#xff0c;来看它最近的数据变化&#xff0c;并将变化情况标记在本行的最后一…

网络基础与通信原理:构建数字世界的框架

目录 初识计算机网络 网络介绍 按照拓扑分类 按地域分类 网络设备 交换机&#xff08;switch&#xff09; 路由器&#xff08;router&#xff09; 传输介质 双绞线 光纤 光纤速度 ISO ISO和OSI有什么关系呢&#xff1f; OSI七层模型 TCP/IP四层 TCP/IP协议族 …

Atmel ATSHA204应用总结

1 ACES软件安装 Atmel Crypto Evaluation Studio (ACES) https://www.microchip.com/DevelopmentTools/ProductDetails/PartNO/Atmel%20Crypto%20%20Studio%20(ACES) 2 基本概念 ACES CE&#xff1a;Atmel Crypto Evalution Studio Configuration Environment&#xff08;基于加…

美国纽约时代广场纳斯达克大屏投放-大舍传媒

美国纽约时代广场纳斯达克大屏投放-大舍传媒 引言 对于大舍传媒来说&#xff0c;能够在美国纽约时代广场纳斯达克大屏投放广告是一个里程碑式的时刻。这不仅仅代表着大舍传媒在全球范围内的知名度与实力&#xff0c;也标志着该公司在国际市场上取得了巨大的进展。纽约时代广场…

Prometheus+TDengine集群实现监控体系高可用

背景 为避免再次出现因Prometheus宕机导致业务无法查看历史数据受到影响&#xff0c;准备将Prometheus架构从单节点方式升级为高可用集群方式并将后端存储由本地存储改为远端分布式时序数据库存储。分布式时序数据库采用国产数据库TDengine。 架构 解释&#xff1a;虚线代表P…

【安卓基础3】Activity(一)

&#x1f3c6;作者简介&#xff1a;|康有为| &#xff0c;大四在读&#xff0c;目前在小米安卓实习&#xff0c;毕业入职 &#x1f3c6;安卓学习资料推荐&#xff1a; 视频&#xff1a;b站搜动脑学院 视频链接 &#xff08;他们的视频后面一部分没再更新&#xff0c;看看前面也…

C#之WPF学习之路(1)

目录 WPF的起源 C的qt和C#的wpf对比 winform 和 wpf有什么区别 安装 Visual Studio2022 创建 HelloWorld 程序 App.xaml与Application类 Application的生命周期 Window窗体的生命周期 WPF的起源 WPF&#xff08;Windows Presentation Foundation&#xff09;是一种用于…

《图解设计模式》笔记(二)交给子类

三、Template Method模式&#xff1a;将具体处理交给子类 示例程序类图 public static void main(String[] args) {// 生成一个持有H的CharDisplay类的实例AbstractDisplay d1 new CharDisplay(H);// 生成一个持有"Hello, world."的StringDisplay类的实例AbstractD…

【HarmonyOS应用开发】三方库(二十)

三方库的基本使用 一、如何获取三方库 目前提供了两种途径获取开源三方库&#xff1a; 通过访问Gitee网站开源社区获取 在Gitee中&#xff0c;搜索OpenHarmony-TPC仓库&#xff0c;在tpc_resource中对三方库进行了资源汇总&#xff0c;可以供开发者参考。 通过OpenHarmony三…

数字世界的探索者:计算机相关专业电影精选推荐

目录 推荐计算机专业必看的几部电影 《黑客帝国》 《社交网络》 《乔布斯传》 《心灵捕手》 《源代码》 《盗梦空间》 《头号玩家》 《我是谁&#xff1a;没有绝对安全的系统》 《战争游戏》(WarGames) 《模仿游戏》(The Imitation Game) 《硅谷》(Silicon Valley) …

SpringBoot+WebSocket实现即时通讯(四)

前言 紧接着上文《SpringBootWebSocket实现即时通讯&#xff08;三&#xff09;》 本博客姊妹篇 SpringBootWebSocket实现即时通讯&#xff08;一&#xff09;SpringBootWebSocket实现即时通讯&#xff08;二&#xff09;SpringBootWebSocket实现即时通讯&#xff08;三&…

如何在Shopee 上选择热销商品?shopee应该在哪选品

在如今激烈竞争的电商市场中&#xff0c;如何通过精准的选品策略提升在Shopee平台上的销售业绩成为卖家们关注的焦点。Shopee作为一个蓬勃发展的电商平台&#xff0c;提供了多种资源和工具来帮助卖家做出明智的选品决策。通过深入了解这些渠道和策略&#xff0c;卖家们可以更好…

第2.4章 StarRocks表设计——分区分桶与副本数

目录 一、数据分布 1.1 概述 1.2 数据分布方式 1.2.1 Round-Robin 1.2.2 Range 1.2.3 List 1.2.4 Hash 1.3 StarRocks的数据分布方式 1.3.1 不分区 Hash分桶 1.3.2 Range分区Hash分桶 三、分区 3.1 分区概述 3.2 创建分区 3.2.1 手动创建分区 3.2.2 批量创建分区…