[C++][数据结构][哈希表]详细讲解

目录

  • 1.哈希概念
  • 2.哈希冲突
  • 3.哈希函数
  • 4.哈希冲突解决
  • 5.闭散列
    • 1.何时扩容?如何扩容?
    • 2.线性探测
    • 3.二次探测
  • 6.开散列(哈希桶)
    • 1.概念
    • 2.开散列增容
    • 3.开散列思考
      • 只能存储key为整形的元素,其他类型怎么解决?
      • 除留余数法,最好模一个素数,如何每次快速取一个类似两倍关系的素数?
    • 4.开散列与闭散列比较


1.哈希概念

  • 顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为O(N),平衡树中为树的高度,即 O(logN),搜索的效率取决于搜索过程中元素的比较次数
  • 理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素
  • 如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系,那么在查找时通过该函数可以很快找到该元素
  • 当向该结构中:
    • 插入元素
      • 根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放
    • 搜索元素
      • 对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较,若关键码相等,则搜索成功
    • 该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(Hash Table)(或者称散列表)

2.哈希冲突

  • 对于两个数据元素的关键字k_i和k_j(i != j),有k_i != k_j,但有:Hash(k_i) == Hash(k_j)
    • 即:不同关键字通过相同哈希函数计算出相同的哈希地址,该种现象称为 哈希冲突 或 哈希碰撞
  • 把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”

3.哈希函数

  • 引起哈希冲突的一个原因可能是:哈希函数设计不够合理
  • 哈希函数设计原则:
    • 哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有m个地址时,其值域必须在0到m-1之间
    • 哈希函数计算出来的地址能均匀分布在整个空间中
    • 哈希函数应该比较简单
  • 常见哈希函数:
    • 直接定址法 – (常用) --> 不存在哈希冲突
      • 取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B
      • 优点:简单、均匀
      • 缺点:需要事先知道关键字的分布情况
      • 使用场景:适合查找比较小且连续的情况
    • 除留余数法(常用) --> 存在哈希冲突,重点解决哈希冲突
      • 设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数
      • 按照哈希函数:Hash(key) = key% p (p<=m),将关键码转换成哈希地址
    • 平方取中法 – (了解)
      • 假设关键字为1234,对它平方就是1522756,抽取中间的3位227作为哈希地址;
      • 再比如关键字为4321,对它平方就是18671041,抽取中间的3位671(或710)作为哈希地址
      • 平方取中法比较适合:不知道关键字的分布,而位数又不是很大的情况
    • 折叠法 – (了解)
      • 折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些),然后将这几部分叠加求和,并按散列表表长,取后几位作为散列地址
      • 折叠法适合事先不需要知道关键字的分布,适合关键字位数比较多的情况
    • 随机数法 – (了解)
      • 选择一个随机函数,取关键字的随机函数值为它的哈希地址
      • 即H(key) = random(key),其中 random为随机数函数
    • 数学分析法 – (了解) – 懒得介绍
  • 注意哈希函数设计的越精妙,产生哈希冲突的可能性就越低,但是无法避免哈希冲突

4.哈希冲突解决

  • 解决哈希冲突两种常见的方法是:闭散列开散列

5.闭散列

  • 闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存放到冲突位置中的“下一个” 空位置中去。那如何寻找下一个空位置呢?

1.何时扩容?如何扩容?

  • 散列表的载荷因子定义为:α = 填入表中的元素个数 / 散列表的长度
    • α越大,表中元素越多,产生冲突概率越大
    • α越小,表明元素越少,产生冲突概率越小
    • 一般不要超过0.7~0.8
  • 什么时候扩容? --> 负载因子到一个基准值就扩容
    • 基准值越大,冲突越多,效率越低,空间利用率越高
    • 基准值越小,冲突越少,效率越高,空间利用率越低

2.线性探测

  • 线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止

    • 插入
      • 通过哈希函数获取待插入元素在哈希表中的位置

      • 如果该位置中没有元素则直接插入新元素

      • 如果该位置中有元素发生哈希冲突, 使用线性探测找到下一个空位置,插入新元素

        请添加图片描述

  • 删除

    • 采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素,会影响其他元素的搜索
    • 比如删除元素4,如果直接删除掉,44查找起来可能会受影响
    • 因此线性探测采用标记的伪删除法来删除一个元素

3.二次探测

  • 线性探测的缺陷是产生冲突的数据堆积在一块,这与其找下一个空位置有关系,因为找空位置的方式就是挨着往后逐个去找
  • 因此二次探测为了避免该问题,找下一个空位置的方法为:
    • H_i = (H_0 + i^2 ) % m 或者 H_i = (H_0 - i^2 ) % m (i = 1,2,3**…)**
    • H_0是通过散列函数Hash(x)对元素的关键码 key 进行计算得到的位置,m是表的大小
  • 研究表明:
    • 表的长度为质数表载荷因子a不超过0.5时,新的表项一定能够插入,而且任何一个位置都不会被探查两次
    • 因此只要表中有一半的空位置,就不会存在表满的问题。在搜索时可以不考虑表装满的情况,但在插入时必须确保表的装载因子a不超过0.5,如果超出必须考虑增容
  • 因此:闭散列最大的缺陷就是空间利用率比较低,这也是哈希的缺陷
enum State
{
    EMPTY,
    EXIST,
    DELETE
};

template <class K, class V>
    struct HashData
    {
        pair<K, V> _kv;
        State _state = EMPTY;
    };

template <class K>
    struct HashFunc
    {
        size_t operator()(const K &key)
        {
            return (size_t)key;
        }
    };

template <> // 特化
struct HashFunc<string>
{
    size_t operator()(const string &key)
    {
        size_t val = 0;
        for (auto &ch : key)
        {
            val *= 131; // BKDR
            val += ch;
        }

        return val;
    }
};

template <class K, class V, class Hash = HashFunc<K>> // Hash允许用户自己提供HashFunc
    class HashTable
    {
        public:
        bool Insert(const pair<K, V> &kv)
        {
            if (Find(kv.first)) // 元素已存在则不插入
            {
                return false;
            }

            // 负载因子到了就扩容
            if (_tables.size() == 0 || 10 * _size / _tables.size() >= 7) // 将载荷因子α定为 0.7
            {
                size_t newsize = _tables.size() == 0 ? 10 : _tables.size() * 2;
                HashTable<K, V> newHT; // 构建一个新的HashTable对象,来进行映射逻辑
                newHT._tables.resize(newsize);

                // 旧表的数据映射到新表
                for (auto &e : _tables)
                {
                    if (e._state == EXIST) // 状态为存在则进行映射
                    {
                        newHT.Insert(e._kv);
                    }
                }

                _tables.swap(newHT._tables);
            }
            // 线性探测
            Hash hash;
            size_t hashi = hash(kv.first) % _tables.size(); // 哈希地址计算
            while (_tables[hashi]._state == EXIST)
            {
                ++hashi;
                hashi %= _tables.size(); // 防止已经遍历完vector,若遍历完,则回头
            }

            _tables[hashi]._kv = kv;
            _tables[hashi]._state = EXIST;
            ++_size;

            // 二次探测
            // Hash hash;
            // size_t start = hash(kv.first) % _tables.size();
            // size_t i = 0;
            // size_t hashi = start;

            // while (_tables[hashi]._state == EXIST)
            //{
            //  ++i;
            //  hashi = start + i * i; // 二次探测的哈希地址跳跃
            //  hashi %= _tables.size(); // 防止已经遍历完vector,若遍历完,则回头
            // }

            //_tables[hashi]._kv = kv;
            //_tables[hashi]._state = EXIST;
            //++_size;

            return true;
        }

        HashData<K, V> *Find(const K &key)
        {
            if (_tables.size() == 0)
            {
                return nullptr;
            }

            Hash hash;
            size_t hashi = hash(key) % _tables.size();
            while (_tables[hashi]._state != EMPTY)
            {
                if (_tables[hashi]._state == EXIST && _tables[hashi]._kv.first == key)
                {
                    return &_tables[hashi];
                }

                ++hashi;
                hashi %= _tables.size();
            }

            return nullptr;
        }

        bool Erase(const K &key)
        {
            HashData<K, V> *ret = Find(key);
            if (ret)
            {
                ret->_state = DELETE; // 标记删除即可
                --_size;
                return true;
            }
            else
            {
                return false;
            }
        }
        private:
        vector<HashData<K, V>> _tables;
        size_t _size = 0; // 存储有效数据的个数
    };

6.开散列(哈希桶)

1.概念

  • 开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中
    请添加图片描述

  • 从上图可以看出,开散列中每个桶中放的都是发生哈希冲突的元素

2.开散列增容

  • 桶的个数是一定的,随着元素的不断插入,每个桶中元素的个数不断增多,极端情况下,可能会导致一个桶中链表节点非常多,会影响的哈希表的性能,因此在一定条件下需要对哈希表进行增容,那该条件怎么确认呢?
  • 开散列最好的情况是:每个哈希桶中刚好挂一个节点, 再继续插入元素时,每一次都会发生哈希冲突,因此,在元素个数刚好等于桶的个数时,可以给哈希表增容

3.开散列思考

  • 只能存储key为整形的元素,其他类型怎么解决?

  • 哈希函数采用处理余数法,被模的key必须要为整形才可以处理,此处提供将key转化为整形的方法

    • 利用仿函数
  • 除留余数法,最好模一个素数,如何每次快速取一个类似两倍关系的素数?

4.开散列与闭散列比较

  • 应用链地址法处理溢出,需要增设链接指针,似乎增加了存储开销
  • 事实上:
    • 由于开放定址法必须保持大量的空闲空间以确保搜索效率,如二次探查法要求装载因子a <= 0.7
    • 而表项所占空间又比指针大的多,所以使用链地址法反而比开地址法节省存储空间
template <class K, class V>
    struct HashNode
    {
        pair<K, V> _kv;
        HashNode<K, V> *_next;

        HashNode(const pair<K, V> &kv)
            : _kv(kv)
                , _next(nullptr)
            {}
    };

template <class K>
    struct HashFunc
    {
        size_t operator()(const K &key)
        {
            return (size_t)key;
        }
    };

template <> // 特化
struct HashFunc<string>
{
    size_t operator()(const string &key)
    {
        size_t val = 0;
        for (auto &ch : key)
        {
            val *= 131; // BKDR
            val += ch;
        }

        return val;
    }
};

template <class K, class V, class Hash = HashFunc<K>>
    class HashTable
    {
        typedef HashNode<K, V> Node;
        public:
        ~HashTable()
        {
            for (size_t i = 0; i < _tables.size(); ++i)
            {
                Node *cur = _tables[i];
                while (cur)
                {
                    Node *next = cur->_next;
                    delete cur;
                    cur = next;
                }
                _tables[i] = nullptr;
            }

            // vector本身不需要手动析构,析构函数会去自动调用所有成员变量的析构函数
        }

        inline size_t __stl_next_prime(size_t n) // STL中素数空间优化
        {
            static const size_t __stl_num_primes = 28;
            static const size_t __stl_prime_list[__stl_num_primes] =
            {
                53, 97, 193, 389, 769,
                1543, 3079, 6151, 12289, 24593,
                49157, 98317, 196613, 393241, 786433,
                1572869, 3145739, 6291469, 12582917, 25165843,
                50331653, 100663319, 201326611, 402653189, 805306457,
                1610612741, 3221225473, 4294967291};

            for (size_t i = 0; i < __stl_num_primes; ++i)
            {
                if (__stl_prime_list[i] > n)
                {
                    return __stl_prime_list[i];
                }
            }

            return -1;
        }

        bool Insert(const pair<K, V> &kv)
        {
            // 去重
            if (Find(kv.first))
            {
                return false;
            }

            Hash hash;
            // 负载因子到1就扩容
            if (_size == _tables.size())
            {
                // size_t newsize = _tables.size() == 0 ? 10 : _tables.size() * 2;
                vector<Node *> newTables;
                // newTables.resize(newsize, nullptr);
                newTables.resize(__stl_next_prime(_tables.size()), nullptr);

                // 旧表中节点移动映射到新表
                for (size_t i = 0; i < _tables.size(); ++i)
                {
                    Node *cur = _tables[i];
                    while (cur)
                    {
                        Node *next = cur->_next;
                        size_t hashi = hash(cur->_kv.first) % newTables.size();
                        cur->_next = newTables[hashi]; // 头插逻辑
                        newTables[hashi] = cur;
                        cur = next;
                    }

                    _tables[i] = nullptr;
                }

                _tables.swap(newTables);
            }

            // 头插
            size_t hashi = hash(kv.first) % _tables.size();
            Node *newnode = new Node(kv);
            newnode->_next = _tables[hashi];
            _tables[hashi] = newnode;
            ++_size;

            return true;
        }
        Node *Find(const K &key)
        {
            if (_tables.size() == 0)
            {
                return nullptr;
            }

            Hash hash;
            size_t hashi = hash(key) % _tables.size();
            Node *cur = _tables[hashi];

            while (cur)
            {
                if (cur->_kv.first == key)
                {
                    return cur;
                }

                cur = cur->_next;
            }

            return nullptr;
        }

        bool Erase(const K &key)
        {
            if (_tables.size() == 0)
            {
                return true;
            }

            Hash hash;
            size_t hashi = hash(key) % _tables.size();
            Node *prev = nullptr;
            Node *cur = _tables[hashi];

            while (cur)
            {
                if (cur->_kv.first == key)
                {
                    // 1.头删
                    // 2.中间删
                    if (prev == nullptr)
                    {
                        _tables[hashi] = cur->_next;
                    }
                    else
                    {
                        prev->_next = cur->_next;
                    }

                    delete cur;
                    --_size;

                    return true;
                }

                prev = cur;
                cur = cur->_next;
            }

            return false;
        }

        size_t Size()
        {
            return _size;
        }

        // 表的长度
        size_t TablesSize()
        {
            return _tables.size();
        }

        // 桶的个数
        size_t BucketNum()
        {
            size_t num = 0;
            for (auto &hashNode : _tables)
            {
                if (hashNode)
                {
                    ++num;
                }
            }

            return num;
        }

        size_t MaxBucketLength()
        {
            size_t maxLen = 0;

            for (auto &hashNode : _tables)
            {
                size_t len = 0;
                Node *cur = hashNode;

                while (cur)
                {
                    ++len;
                    cur = cur->_next;
                }

                if (len > maxLen)
                {
                    maxLen = len;
                }
            }

            return maxLen;
        }
        private:
        vector<Node *> _tables;
        size_t _size = 0; // 存储有效数据个数
    };

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/718789.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ROS学习记录:SLAM软件包Hector_Mapping

前言 了解和尝试使用Hector_Mapping软件包 一、搜索进入ROS Index 二、搜索hector_mapping 三、选择noetic的版本 四、进入Website 五、订阅的话题中&#xff0c;一个是scan话题&#xff0c;就是获取激光雷达数据的话题 六、另一个话题是syscommand话题&#xff0c;主要用来接…

【ai】初识pytorch

初识PyTorch 大神的例子运行: 【ai】openai-quickstart 配置pycharm工程 简单例子初识一下Pytorch 好像直接点击下载比较慢? 大神的代码 在这个例子中,首先定义一个线性模型,该模型有一个输入特征和一个输出特征。然后定义一个损失函数和一个优化器,接着生成一些简单的线性…

如何用优盘加密自己的电脑:人离后自动锁定

看电影的时候&#xff0c;看到有人展示&#xff0c;用优盘加密自己的电脑&#xff0c;人走开的时候拔下优盘&#xff0c;自动上锁。似乎很科幻&#xff0c;其实这样的软件非常多&#xff0c;不论是成品商业用的还是免费的&#xff0c;都非常多&#xff0c;很多版权管理比较强的…

wondershaper 一款限制 linux 服务器网卡级别的带宽工具

文章目录 一、关于奇迹整形器二、文档链接三、源码下载四、限流测试五、常见报错1. /usr/local/sbin/wondershaper: line 145: tc: command not found2. Failed to download metadata for repo ‘appstream‘: Cannot prepare internal mirrorlist: No URLs.. 一、关于奇迹整形…

HTML/CSS Xiaomi综合案例day 6.13-6.16

ok了家人们今天不做别的&#xff0c;今天浅做一个小米网站&#xff0c;话不多说看看怎么事 一.顶部 我们先看看代码 1&#xff0c;html 2&#xff0c;css代码 1.我们先消除浏览器自带的内外边距&#xff0c;添加一个总背景颜色为浅灰色&#xff0c;设置顶部盒子的大小&#x…

CentOS7的#!bash #!/bin/bash #!/bin/env bash #!/usr/bin/bash #!/usr/bin/env bash

bash脚本开头可写成 #!/bin/bash , #!/bin/env bash , #!/usr/bin/bash , #!/usr/bin/env bash #!/bin/bash , #!/usr/bin/bash#!/bin/env bash , #!/usr/bin/env bash CentOS7的 /bin 是 /usr/bin 的软链接, /sbin 是 /usr/sbin 的软链接, [root3050 ~]# ll /bin lrwxrwxrw…

IntelliJ IDEA 2024.1安装_idea2024.1版本激 活 码分享

一&#xff1a;IDEA官方下载 ①如题&#xff0c;先到IDEA官方下载&#xff0c;简简单单 ②IDEA官方&#xff1a;IntelliJ IDEA – the Leading Java and Kotlin IDE 二&#xff1a;获取脚本 https://www.yuque.com/fengye-cyk1s/dxii3c/orbl5ruhvm7m3s4g &#x1f31f;获取完…

C++ | Leetcode C++题解之第162题寻找峰值

题目&#xff1a; 题解&#xff1a; class Solution { public:int findPeakElement(vector<int>& nums) {int n nums.size();// 辅助函数&#xff0c;输入下标 i&#xff0c;返回一个二元组 (0/1, nums[i])// 方便处理 nums[-1] 以及 nums[n] 的边界情况auto get …

理解CA-IS3050G高速CAN收发器的CANH和CANL的电压

CA-IS3050G高速CAN收发器符合ISO 11898-2物理层标准。 1、CANH和CANL的电压之和为5V&#xff0c;下图是CA-IS3050G的高速CAN收发器参数&#xff0c;分析如下&#xff1a; 1&#xff09;、总线输出显性电压 2.75V < VCANH <4.5V&#xff0c;负载为60Ω&#xff0c;CANH…

【Linux】进程_8

文章目录 五、进程10. 进程等待阻塞等待和非阻塞等待 11. 进程程序替换 未完待续 五、进程 10. 进程等待 上一篇我们知道了 wait 和 waitpid 函数都有一个 status 参数&#xff0c;这个参数是什么呢&#xff1f;这个参数其实就是进程的返回结果&#xff0c;当子进程结束的时候…

【考研数学】如何保证进度不掉队?暑假强化保姆级规划

数一125学长前来解答&#xff01;一句话&#xff0c;跟对老师&#xff0c;抓基础&#xff0c;有计划的进行复习才是关键&#xff01; 数学基础非常重要&#xff0c;包括高等数学、线性代数和概率论等基础知识点。要确保对这些基础知识有扎实的掌握。 按照教材的顺序&#xff…

Go - 1.Go 语言安装

目录 一.引言 二.下载与安装 1.下载 PKG 2.安装 PKG 三.验证 一.引言 最近开始从头学习 Go 语言&#xff0c;趁着这个机会把学习当中遇到的坑进行整理。学习前首先下载 Go 的安装包。 二.下载与安装 1.下载 PKG 官网地址: All releases - The Go Programming Language …

如何实现element表格合并行?

前两天我一个朋友咨询我element表格合并行的问题,他研究了很久,已经开始怀疑是不是element UI出现了bug,然后跟我一阵沟通,最终解决了问题,他的问题在于他把事情想复杂了,接下来我们一起来看一下这个经典“案例”,很多人真的很有可能走入这个误区,当然老鸟就不用看了,…

centos7 xtrabackup mysql 基本测试(1)---虚拟机环境安装

centos7 xtrabackup mysql 基本测试&#xff08;1&#xff09;—虚拟机环境安装 win10 建立目录 G:\centos7_mini_1810_server_test\ 下载 centos7 安装文件 CentOS-7-x86_64-Minimal-1810.iso CentOS7_64_mini_1810_server_test G:\centos7_mini_1810_server_test 开…

期末模拟GGG--求逆序数

求逆序数 #include <stdio.h> # include <math.h>unsigned int reverse( unsigned int number );int main() {unsigned int n;scanf("%u", &n);printf("%u\n", reverse(n));return 0; } 函数实现&#xff1a; unsigned int reverse( unsi…

uniapp 微信小程序更改轮播图指示点

仅微信小程序有效 /* #ifdef MP-WEIXIN */// 默认指示点样式wx-swiper .wx-swiper-dot {position: relative;background-color: #ffffff;width: 28rpx;border-radius: 10rpx;height: 8rpx;opacity: 0.4;}// 当前选中样式wx-swiper .wx-swiper-dot-active {background-color: #f…

【 ARMv8/ARMv9 硬件加速系列 3.5.1 -- SVE 谓词寄存器有多少位?】

文章目录 SVE 谓词寄存器(predicate registers)简介SVE 谓词寄存器的位数SVE 谓词寄存器对向量寄存器的控制SVE 谓词寄存器位数计算SVE 谓词寄存器小结SVE 谓词寄存器(predicate registers)简介 ARMv9的Scalable Vector Extension (SVE) 引入了谓词寄存器(Predicate Register…

Vitis HLS 学习笔记--函数例化(Function Instantiation)

目录 1. 简介 2. 功能分析 3. 示例分析 3.1 不使用 FUNCTION_INSTANTIATE 3.2 使用 FUNCTION_INSTANTIATE 4. 总结 1. 简介 函数例化&#xff08;Function Instantiation&#xff09;是 Vitis HLS 中的一个高级优化技术。它允许开发者在保持函数层次结构的同时&#xff…

wsl2平台鸿蒙全仓docker编译环境快速创建方法

文章目录 1 文章适用范围&#xff1a;2 WSL环境安装3 镜像迁移非C盘4 Docker环境准备4.1 docker用户组和用户创建4.2 Docker环境配置4.2.1 Ubuntu下安装docker工具4.2.2 鸿蒙Docker环境安装4.2.3 鸿蒙全仓代码拉取编译 5 参考文献6 FAQ6.1 缺头文件xcrusor/xcursor.h6.2 缺头文…

多叉树的DFS深度优先遍历,回溯法的基础算法之一

一、前言 多叉树一般用于解决回溯问题。 想必大家都学过二叉树&#xff0c;以及二叉树的深度优先遍历和广度优先遍历&#xff0c;我们思考&#xff1a;能不能将二叉树的DFS转化为多叉树的DFS&#xff1f; 二、多叉树的结构 多叉树的本质&#xff0c;就是一棵普通的树&#x…