C++ unordered_map和unordered_set的使用,哈希表的实现

文章目录

  • unordered_map,unorder_set和map ,set的差异
  • 哈希表的实现
    • 概念
    • 直接定址法
    • 哈希冲突
      • 哈希冲突举个例子
    • 负载因子
    • 将关键字转为整数
    • 哈希函数
      • 除法散列法/除留余数法
    • 哈希冲突的解决方法
      • 开放定址法
        • 线性探测
        • 二次探测
    • 开放定址法代码实现
  • 哈希表的代码

unordered_map,unorder_set和map ,set的差异

unordered_map,unordered_set在功能方面和map,set基本一致
unordered_map和unordered_set底层是哈希表,遍历无序,查找删除修改的效率为O(1)
map和set底层是红黑树,遍历有序,查找删除修改的效率为O(logN)

  1. 功能:迭代器之间也有差异,set是双向迭代器,unordered_set是单向迭代器,set底层是红黑树,走中序是有序的,所以迭代器的遍历是有序+去重unordered_set底层是哈希表,迭代器遍历是无序+去重
  2. 效率:unordered_set和set性能方面也有差异,set是O(logN),unordered_set是O(1)
  3. 使用要求:对key的要求不同,set要求key支持小于的比较,unordered_set要求key转为整形且要支持等于的比较
  4. unordered_set,unordered_map和map,set要求基本一致
  5. unordered_multimap和unordered_multiset支持键值冗余(key冗余)
  6. 效率上无序的比有序的总体上要好很多,但是在排有序的数的时候,有序的删除,插入比无序的效率高,但是查找效率还是无序的效率高
    在这里插入图片描述
void set_test1()
{
    // 迭代器遍历
	set<int> s = { 3,1,6,7,8,2};
	set<int>::iterator it = s.begin();
	while (it != s.end())
	{
		cout << *it << " ";
		++it;
	}
	// 3 1 6 7 8 2
	cout << endl;
}

int main()
{
	set_test1();

	return 0;
}

哈希表的实现

概念

  • 哈希表也叫散列表,散列有散乱排列的意思。通过关键字Key跟存储位置建立一个映射关系

直接定址法

  • 适合关键字的范围比较集中的,直接定址法是非常高效的方法。比如给’a’ - 'z’的小写字母为范围,通过直接映射或相对映射关键字的值就是存储位置的下标,下面也有一道题是这样的。只适合整形,字符串,浮点数都不行

字符串中的第一个唯一字符

class Solution 
{
public:
    int firstUniqChar(string s) 
    {
        int hash[26] = {0};

        for(auto ch : s)
        {
            hash[ch - 'a']++;
        }    

        for(int i = 0;i < s.size();i++)
        {
            if(hash[s[i] - 'a'] == 1)
            return i;
        }

        return -1;
    }
};

哈希冲突

  • 直接定址法的缺点非常明显,当关键字比较分散时,会浪费空间甚至空间会不够用。当有N个值要映射到M个空间中(M >= N),就要借助哈希函数,关键字key要放到数组的h(key)的位置,h(key)计算的值要在[0,M)中。
  • 哈希冲突也叫哈希碰撞,就是两个不同的key映射到同一个位置了,我们要设计一个哈希函数来减少哈希冲突,在实际问题中哈希冲突是不可避免的

哈希冲突举个例子

N == 100 M == 200,N个数要存到M个空间中
除法散列法:h(key) = key % M
哈希冲突:3 % 200 = 3,203 % 200 = 3

负载因子

哈希表中已经存了N个值,哈希表的大小为M,负载因子 = N/M,负载因子也叫装载因子/载荷因子,负载因子越大,哈希冲突越高,空间利用率越高,相反就越低。

将关键字转为整数

比如是浮点数转为整数或者有符号的整数(负数)要转为正数,字符串转为整数。

哈希函数

一个好的哈希函数应该让N个关键字被等概率的均匀的散列分布到哈希表的M个空间中,但是实际中却很难做到,但是我们要尽量往这个方向去考量设计。

除法散列法/除留余数法

  • 除法散列表是最常用的,哈希表的大小为M,通过key除以M的余数作为映射的下标,h(key) = key % M
  • 使用这个方法时要注意M不要为2的幂,10的幂等。如果是2^X,那么key%2 ^ X,相当于保留key的后X位,那么key的后X位相同的值就哈希冲突了
  • 比如63,31,如果M是16,2 ^ 4,计算出的哈希值都是15,00111111为63,00011111为31,后4位都是1111,所以会哈希冲突。10进制的,比如123和345123,如果M = 10 ^ 3,保留后三位,都是123,也哈希冲突。
  • 当使用除留余数法时,建议M取不太接近2的整数次幂的一个质数
  • %其实用到了除,除的效率比位运算的效率更低,所以Java中用了位运算

Java中用了2的整数次幂作为哈希表的大小M
在这里插入图片描述

哈希冲突的解决方法

开放定址法

  • 开放定址法,哈希表是空的,把所有元素放到哈希表中,当关键字key用哈希函数找到了冲突位置,就按照某种规则去找一个没有存储数据的位置进行储存。这里有三种规则:线性探测,二次探测,双重探测
线性探测

现在给一组数据:
{19,30,5,36,13,20,21,12} 等这一组值映射到M=11的表中

h(19) = 8,h(30) = 8,h(5) = 5,h(36) = 3,
h(13) = 2,h(20) = 9,h(21) =10,h(12) = 1
在这里插入图片描述
上面这组数据在8位置就冲突了

  • 线性探测:从发生冲突的位置依次往后探测,直到找到一个没有存储数据的位置为止,如果走到哈希尾都没有找到,则回绕到哈希头继续往后找
  • h(key) = hash0 = key % M , hash0位置冲突了,则线性探测公式为:hc(key, i) = hashi = (hash0 + i) % M, i = {1, 2, 3, …, M − 1},因为负载因子必须小于1(因为要留一个位置不放数据,不然会出问题),则最多探测M-1次,一定能找到一个存储key的位置。
  • 连续冲突:hash0位置连续冲突,(你占我的位置,我占你的位置)这种现象叫做 群集/堆积,二次探测可以改善这样的问题
二次探测

二次探测和线性探测非常类似
如果往左走回绕到哈希表尾,用减,比如3-9,到5的位置停下,-6 + M,M == 11, -6 + M = 5
在这里插入图片描述

// 二次探测
int flag = 1;
while (_tables[hashi]._state == EXIST)
{
	// 存在进行二次探测,删除和空就退出
	hashi = (hash0 + i*i*flag) % _tables.size();
	if (hashi < 0)
		hashi += _tables.size();

	if (flag == 1)
	{
		flag = -1;
	}
	else
	{
		flag = 1;
		++i;
	}
}

开放定址法代码实现

h(19) = 8,h(30) = 8,h(5) = 5,h(36) = 3,
h(13) = 2,h(20) = 9,h(21) =10,h(12) = 1
蓝色的四个位置连续冲突在这里插入图片描述
查找的原则:遇到删除,存在才继续找,遇到空就结束查找
状态标识:存在,空和删除,空和删除可以放值,空就线性探测
要注意给每个存储值的位置加一个状态标识,否则删除一些值以后,会影响后面冲突的值的查找。
如下图,我们删除30,会导致查找20失败,当我们给每个位置加⼀个状态标识{EXIST,EMPTY,DELETE} ,删除30就可以不用删除值,而是把状态改为 DELETE ,那么查找20时是遇到 EMPTY 才能停止,就可以找到20。

哈希表的代码

#pragma once

#include<vector>

// 枚举状态
enum State
{
	EXIST,
	EMPTY,
	DELETE
};

template<class K,class V>
struct HashData
{
	pair<K, V> _kv;
	State _state = EMPTY;
};

template<class K,class V>
class HashTable
{
public:
	// 构造
	HashTable()
		// 会取到53
		:_tables(__stl_next_prime(0)),// 11是数据个数()
		_n(0)
	{
	}

	// 为了解决M是质数的问题
	inline unsigned long __stl_next_prime(unsigned long n)
	{
		// Note: assumes long is at least 32 bits.
		static const int __stl_num_primes = 28;
		static const unsigned long __stl_prime_list[__stl_num_primes] = {
			53, 97, 193, 389, 769,
			1543, 3079, 6151, 12289, 24593,
			49157, 98317, 196613, 393241, 786433,
			1572869, 3145739, 6291469, 12582917, 25165843,
			50331653, 100663319, 201326611, 402653189, 805306457,
			1610612741, 3221225473, 4294967291
		};
		const unsigned long* first = __stl_prime_list;
		const unsigned long* last = __stl_prime_list + __stl_num_primes;
		const unsigned long* pos = lower_bound(first, last, n);
		// lower_bound取表中大于等于first的数
		return pos == last ? *(last - 1) : *pos;
	}

	// 插入
	bool Insert(const pair<K, V>& kv)
	{
		// 不支持冗余
		if (Find(kv.first))
		{
			return false;
		}

		// 负载因子大于等于0.7就扩容
		if (_n * 10 / _tables.size() >= 7)
		{
			// 扩容
			//vector<HashTable<K, V>> newtables(_tables.size()*2);
			//for (auto& data : _tables)
			//{
			//	// 把旧表的数据映射到新表
			//	// 不能直接拷贝,因为映射关系还是原来的(会乱)
			//	if (data._state == EMPTY)
			//	{
			//		size_t hash0 = data._kv.first % newtables.size();
			//		// ...
			//	}
			//}

			//_tables.swap(newtables);

			// 上面的方法代码过于冗余

			// 把新表和旧表交换
			HashTable<K, V> newht;
			// newht._tables.resize(_table.size() * 2);
			newht._tables.resize(__stl_next_prime(_table.size()));

			for (auto& data : _tables)
			{
				// 把旧表的数据映射到新表
				if (data._state == EMPTY)
				{
					// 相当于递归
					newht.Insert(data._kv);
				}
			}
			// 函数结束,newht销毁,数据交换给旧表
			_tables.swap(newht._tables);
		}

		// key / M , M哈希表的空间大小
		size_t hash0 = kv.first % _tables.size();
		size_t hashi = hash0;
		size_t i = 1;
		while (_tables[hashi]._state == EXIST)
		{
			// 存在进行线性探测,删除和空就退出
			hashi = (hash0 + i) % _tables.size();
			++i;

		}

		// 二次探测
		//int flag = 1;
		//while (_tables[hashi]._state == EXIST)
		//{
		//	// 存在进行二次探测,删除和空就退出
		//	hashi = (hash0 + i*i*flag) % _tables.size();
		//	if (hashi < 0)
		//		hashi += _tables.size();

		//	if (flag == 1)
		//	{
		//		flag = -1;
		//	}
		//	else
		//	{
		//		flag = 1;
		//		++i;
		//	}
		//}

		_tables[hashi]._kv = kv;
		_tables[hashi]._state = EXIST;
		++_n;

		return true;
	}

	// 查找
	HashData<K, V>* Find(const K& key)
	{
		size_t hash0 = key % _tables.size();
		size_t hashi = hash0;
		size_t i = 1;
		// Find等于空就找不到了
		while (_tables[hashi]._state != EMPTY)
		{
			if (_tables[hashi]._state == EXIST
				&& _tables[hashi]._kv.first == key)
			{
				return &_tables[hashi];
			}

			// 存在进行线性探测,删除和空就退出
			hashi = (hash0 + i) % _tables.size();
			++i;
		}

		return nullptr;
	}

	// 删除
	bool Erase(const K& key)
	{
		HashData<K, V>* ret = Find(key);
		if (key)
		{
		   ret->_state = DELETE;
		   return true;
		}
		else
		{
			return false;
		}
	}

private:
	vector<HashData<K, V>> _tables;
	size_t _n;// 记录哈希表中的数据个数
};

#include"HashTable.h"

int main()
{
	int a[] = { 19,30,5,36,13,20,21,12 };
	HashTable<int, int> ha;

	for (auto& e : a)
	{
		ha.Insert({ e,e });
	}

	ha.Erase(20);
	if (ha.Find(30))
	{
		cout << "找到了" << endl;
	}

	if (ha.Find(20))
	{
		cout << "找到了" << endl;
	}
	else
	{
		cout << "没有找到" << endl;
	}

	return 0;
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/961839.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JAVA实战开源项目:网上订餐系统(Vue+SpringBoot) 附源码

本文项目编号 T 039 &#xff0c;文末自助获取源码 \color{red}{T039&#xff0c;文末自助获取源码} T039&#xff0c;文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析5.4 用例设计 六、核…

Three.js实战项目02:vue3+three.js实现汽车展厅项目

文章目录 实战项目02项目预览项目创建初始化项目模型加载与展厅灯光加载汽车模型设置灯光材质设置完整项目下载实战项目02 项目预览 完整项目效果: 项目创建 创建项目: pnpm create vue安装包: pnpm add three@0.153.0 pnpm add gsap初始化项目 修改App.js代码&#x…

【C++题解】1055. 求满足条件的整数个数

欢迎关注本专栏《C从零基础到信奥赛入门级&#xff08;CSP-J&#xff09;》 问题&#xff1a;1055. 求满足条件的整数个数 类型&#xff1a;简单循环 题目描述&#xff1a; 在 1∼n 中&#xff0c;找出能同时满足用 3 除余 2 &#xff0c;用 5 除余 3 &#xff0c;用 7 除余…

【PyTorch】6.张量形状操作:在深度学习的 “魔方” 里,玩转张量形状

目录 1. reshape 函数的用法 2. transpose 和 permute 函数的使用 4. squeeze 和 unsqueeze 函数的用法 5. 小节 个人主页&#xff1a;Icomi 专栏地址&#xff1a;PyTorch入门 在深度学习蓬勃发展的当下&#xff0c;PyTorch 是不可或缺的工具。它作为强大的深度学习框架&am…

Brave132 编译指南 Windows 篇:构建与运行(七)

1. 引言 在成功获取 Brave 浏览器 132 版本的源代码之后&#xff0c;构建和启动项目便成为开发流程中至关重要的环节。这一阶段将源代码编译链接成可执行程序&#xff0c;使您能够在本地环境中运行和测试 Brave 浏览器。Windows 平台上的构建过程可能涉及特定的工具配置和环境…

Java-多态(详解)

目录 一、多态的概念 二、多态实现的条件 示例&#xff1a; 分析&#xff1a; 三、关于Java语言中的向上转型和向下转型&#xff1a; 1.向上转型&#xff08;Upcasting&#xff09; (1).示例代码1 (2).示例代码2 2.向下转型&#xff08;Downcasting&#xff09; (1).…

unity商店插件A* Pathfinding Project如何判断一个点是否在导航网格上?

需要使用NavGraph.IsPointOnNavmesh(Vector3 point) 如果点位于导航网的可步行部分&#xff0c;则为真。 如果一个点在可步行导航网表面之上或之下&#xff0c;在任何距离&#xff0c;如果它不在更近的不可步行节点之上 / 之下&#xff0c;则认为它在导航网上。 使用方法 Ast…

node 爬虫开发内存处理 zp_stoken 作为案例分析

声明: 本文章中所有内容仅供学习交流使用&#xff0c;不用于其他任何目的&#xff0c;抓包内容、敏感网址、数据接口等均已做脱敏处理&#xff0c;严禁用于商业用途和非法用途&#xff0c;否则由此产生的一切后果均与作者无关&#xff01; 前言 主要说3种我们补环境过后如果用…

python——Django 框架

Django 框架 1、简介 Django 是用python语言写的开源web开发框架&#xff0c;并遵循MVC设计。 Django的**主要目的是简便、快速的开发数据库驱动的网站。**它强调代码复用&#xff0c;多个组件可以很方便的以"插件"形式服务于整个框架&#xff0c;Django有许多功能…

嵌入式知识点总结 Linux驱动 (五)-linux内核

针对于嵌入式软件杂乱的知识点总结起来&#xff0c;提供给读者学习复习对下述内容的强化。 目录 1.内核镜像格式有几种&#xff1f;分别有什么区别&#xff1f; 2.内核中申请内存有哪几个函数&#xff1f;有什么区别&#xff1f; 3.什么是内核空间&#xff0c;用户空间&…

SpringBoot+Vue的理解(含axios/ajax)-前后端交互前端篇

文章目录 引言SpringBootThymeleafVueSpringBootSpringBootVue&#xff08;前端&#xff09;axios/ajaxVue作用响应式动态绑定单页面应用SPA前端路由 前端路由URL和后端API URL的区别前端路由的数据从哪里来的 Vue和只用三件套axios区别 关于地址栏url和axios请求不一致VueJSPS…

网络直播时代的营销新策略:基于受众分析与开源AI智能名片2+1链动模式S2B2C商城小程序源码的探索

摘要&#xff1a;随着互联网技术的飞速发展&#xff0c;网络直播作为一种新兴的、极具影响力的媒体形式&#xff0c;正逐渐改变着人们的娱乐方式、消费习惯乃至社交模式。据中国互联网络信息中心数据显示&#xff0c;网络直播用户规模已达到3.25亿&#xff0c;占网民总数的45.8…

将ollama迁移到其他盘(eg:F盘)

文章目录 1.迁移ollama的安装目录2.修改环境变量3.验证 背景&#xff1a;在windows操作系统中进行操作 相关阅读 &#xff1a;本地部署deepseek模型步骤 1.迁移ollama的安装目录 因为ollama默认安装在C盘&#xff0c;所以只能安装好之后再进行手动迁移位置。 # 1.迁移Ollama可…

《Trustzone/TEE/安全从入门到精通-标准版》

CSDN学院课程连接:https://edu.csdn.net/course/detail/39573 讲师介绍 拥有 12 年手机安全、汽车安全、芯片安全开发经验,擅长 Trustzone/TEE/ 安全的设计与开发,对 ARM 架构的安全领域有着深入的研究和丰富的实践经验,能够将复杂的安全知识和处理器架构知识进行系统整…

手撕Diffusion系列 - 第十一期 - lora微调 - 基于Stable Diffusion(代码)

手撕Diffusion系列 - 第十一期 - lora微调 - 基于Stable Diffusion&#xff08;代码&#xff09; 目录 手撕Diffusion系列 - 第十一期 - lora微调 - 基于Stable Diffusion&#xff08;代码&#xff09;Stable Diffusion 原理图Stable Diffusion的原理解释Stable Diffusion 和Di…

基于 AWS SageMaker 对 DeepSeek-R1-Distilled-Llama-8B 模型的精调与实践

在当今人工智能蓬勃发展的时代&#xff0c;语言模型的性能优化和定制化成为研究与应用的关键方向。本文聚焦于 AWS SageMaker 平台上对 DeepSeek-R1-Distilled-Llama-8B 模型的精调实践&#xff0c;详细探讨这一过程中的技术细节、操作步骤以及实践价值。 一、实验背景与目标 …

三、SysTick系统节拍定时器

3.1 SysTick简介 系统节拍定时器SysTick是ARM Cortex-M0内核提供的一个24位递减定时器&#xff0c;当计数值达到0时产生中断&#xff0c;可以为操作系统和其他管理软件提供固定时间的中断。 当系统节拍定时器被被使能时&#xff0c;定时器从重装值递减计数&#xff0c;到0进中断…

算法每日双题精讲 —— 前缀和(【模板】一维前缀和,【模板】二维前缀和)

在算法竞赛与日常编程中&#xff0c;前缀和是一种极为实用的预处理技巧&#xff0c;能显著提升处理区间和问题的效率。今天&#xff0c;我们就来深入剖析一维前缀和与二维前缀和这两个经典模板。 一、【模板】一维前缀和 题目描述 给定一个长度为 n n n 的整数数组 a a a&…

学习数据结构(2)空间复杂度+顺序表

1.空间复杂度 &#xff08;1&#xff09;概念 空间复杂度也是一个数学表达式&#xff0c;表示一个算法在运行过程中根据算法的需要额外临时开辟的空间。 空间复杂度不是指程序占用了多少bytes的空间&#xff0c;因为常规情况每个对象大小差异不会很大&#xff0c;所以空间复杂…

MybatisX插件快速创建项目

一、安装插件 二、创建一个数据表测试 三、IDEA连接Mysql数据库 四、选择MybatiX构造器 五、配置参数 六、项目结构