C++:由哈希延伸出来的应用--位图和布隆过滤器

文章目录

  • 位图的概念
  • 位图的实现
  • 布隆过滤器
    • 布隆过滤器的查找
    • 布隆过滤器的删除
    • 布隆过滤器的优点
  • 布隆过滤器的实现

本篇实现的是位图和应用

位图的概念

下面有这样的场景:给定40亿个数,现在要找这当中的一个数,如何寻找?

  1. 遍历,一个一个比对
  2. 排序+二分查找
  3. 位图

如何用位图解决?基本逻辑如下

在这里插入图片描述
在使用位图前,要先明确计算机中的大小是如何计算的

1 Byte = 8 Bits
1 KB = 1024 Bytes
1 MB = 1024 KB
1 GB = 1024 MB

也就是说,1GB大概是10亿个字节

那么在这个情景下,很明显,哪怕这40亿个数都不一样,也仅仅占用了40亿个比特位,也只是500MB左右的量级

位图,就是用每一位来存放某种状态,适用于海量数据,数据无重复的场景。通常是用来判断某个数据存不存在的

位图的实现

#pragma once
#include <iostream>
#include <vector>
using namespace std;

// N是要存储的元素个数
template<size_t N>
class bitmap
{
public:
	// 构造函数
	bitmap()
		:_size(0)
	{
		size_t size = (N / 8) + 1;
		_map.resize(size, 0);
	}
	~bitmap()
	{
		_map.clear();
	}

	// 插入元素
	void set(size_t x)
	{
		// 找到这个元素属于的下标
		size_t i = x / 32;
		// 找到这个元素所属的比特位
		size_t j = x % 32;
		// 把这个元素标记一下
		_map[i] |= (1 << j);
		_size++;
	}

	// 删除元素
	void reset(size_t x)
	{
		// 找到元素下标和比特位
		size_t i = x / 32;
		size_t j = x % 32;
		// 把这个元素置0
		_map[i] &= ~(1 << j);
		_size--;
	}

	// 判断一个值在不在位图里面
	bool test(size_t x)
	{
		// 找到它在位图的位置
		size_t i = x / 32;
		size_t j = x % 32;
		return _map[i] & (1 << j);
	}

	// 查看
	void Print()
	{
		cout << "size:" << _size << endl;
		for (int i = 0; i < 100; i++)
		{
			if (test(i))
				cout << i << " ";
		}
		cout << endl;
	}
private:
	vector<int> _map;
	size_t _size;
};

位图的实现逻辑其实很简单,只是运用了一个位运算就可以解决了

位图的运用

  1. 快速查找某个数据是否在一个集合中
  2. 排序 + 去重
  3. 求两个集合的交集、并集等
  4. 操作系统中磁盘块标记

布隆过滤器

什么是布隆过滤器?

简单来说,布隆过滤器是一种巧妙的概率型数据结构,它的优点主要体现在高效地插入和查询,用来表明这个东西一定不存在或者可能存在的问题,它的底层是用多个哈希函数,将一个数据映射到多个位图中,这样可以提高查找效率,也能节省空间

布隆过滤器的查找

布隆过滤器的底层如上面所示,因此被映射的位置的比特位是1,因此在寻找的时候就根据不同的哈希函数计算出对应的哈希值,再用每个对应的哈希值来看是否为0,如果这三个中有一个是0,那么就说明这个值不存在

布隆过滤器的误判情况

有下面的误判情况,比如说,现在有三个哈希函数,如果去这三个哈希函数对应的哈希值来到布隆过滤器中查找,会出现一些情况:如果有一个为0,那么绝对可以说明这个值是不存在的,但是反之却不能这么说,如果全都存在,也依旧会有不存在的可能,可能程序计算出的哈希值已经被映射过了,这样去对应得到的结果也依旧是存在的,但是很显然它本身是不存在的,所以布隆过滤器是存在误判的现象的

因此,使用合适的哈希函数可以尽可能的把误判的情况减少,减少它出现的概率,但是想要真正的出现一次都不进行误判还是有一定的难度,只能是尽可能的降低这种情况出现的概率与可能性

布隆过滤器的删除

布隆过滤器的删除其实是有些许问题的,这个问题其实很好想明白,如果此时的测试用例就是上面出现误判的这个测试用例,那么此时如果这个东西不存在,但是通过搜索发现它本身在这个过滤器中存在,并且还把它删除,那么就意味着这会出现其他映射值的问题,哪怕是这个值本身是存在的,直接贸然把位图中对应的值置为0也会出现很多问题

对于这样的情况,实际上还是有解决方案的,一个经典的解决方案就是使用引用计数的方法,在每个值的下面多一个计数器,当插入数据的时候就对它加1,删除数据的时候就对它减1,这样可以进行一定程度的优化,但是也并不能真正的解决误判对布隆过滤器带来的影响

布隆过滤器的缺陷

  1. 不能确定这个元素是不是真正的存在于布隆过滤器中
  2. 可能存在计数回绕的问题

布隆过滤器的优点

  1. 布隆过滤器的优点还是很明显的,它的优点主要就是体现在查找相当快,只需要根据哈希函数计算出哈希值然后进行比对就可以了
  2. 哈希函数相互没有关系,方便硬件进行运算
  3. 布隆过滤器不需要存储元素本身,它存储的是这个元素所对应的哈希值,因此对于隐秘数据可以做很好的保护
  4. 如果可以接受一定程度的误判的情况下,过滤器还是比其他的数据结构的比对要方便很多
  5. 数据量很大的时候,布隆过滤器可以表示全集
  6. 使用同一组散列函数的布隆过滤器可以进行交并差集运算

布隆过滤器的实现

#pragma once
#include <bitset>
#include <string>
using namespace std;

struct BKDRHash
{
	size_t operator()(const string& key)
	{
		// BKDR
		size_t hash = 0;
		for (auto e : key)
		{
			hash *= 31;
			hash += e;
		}

		return hash;
	}
};

struct APHash
{
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (size_t i = 0; i < key.size(); i++)
		{
			char ch = key[i];
			if ((i & 1) == 0)
			{
				hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
			}
			else
			{
				hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
			}
		}
		return hash;
	}
};

struct DJBHash
{
	size_t operator()(const string& key)
	{
		size_t hash = 5381;
		for (auto ch : key)
		{
			hash += (hash << 5) + ch;
		}
		return hash;
	}
};

template<size_t N,
	class K = string,
	class HashFunc1 = BKDRHash,
	class HashFunc2 = APHash,
	class HashFunc3 = DJBHash>
class BloomFilter
{
public:
	void Set(const K& key)
	{
		size_t hash1 = HashFunc1()(key) % N;
		size_t hash2 = HashFunc2()(key) % N;
		size_t hash3 = HashFunc3()(key) % N;

		_bs.set(hash1);
		_bs.set(hash2);
		_bs.set(hash3);
	}

	bool Test(const K& key)
	{
		// 判断不存在是准确的
		size_t hash1 = HashFunc1()(key) % N;
		if (_bs.test(hash1) == false)
			return false;

		size_t hash2 = HashFunc2()(key) % N;
		if (_bs.test(hash2) == false)
			return false;

		size_t hash3 = HashFunc3()(key) % N;
		if (_bs.test(hash3) == false)
			return false;

		// 存在误判的
		return true;
	}

private:
	bitset<N> _bs;
};

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/193947.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大数据平台/大数据技术与原理-实验报告--实战HDFS

实验名称 实战HDFS 实验性质 &#xff08;必修、选修&#xff09; 必修 实验类型&#xff08;验证、设计、创新、综合&#xff09; 综合 实验课时 2 实验日期 2023.10.23-2023.10.27 实验仪器设备以及实验软硬件要求 专业实验室&#xff08;配有centos7.5系统的linu…

智能优化算法应用:基于蝴蝶算法无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于蝴蝶算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于蝴蝶算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.蝴蝶算法4.实验参数设定5.算法结果6.参考文献7.MATLAB…

05-学成在线课程分类查询

课程分类查询 界面原型 在新增课程基本信息界面中课程等级、课程类型、课程分类三处信息需要用户选择 当我们点击新增课程时,前端会请求内容管理服务中的content/course-category/tree-nodes接口获取课程分类表中的课程分类信息 响应数据模型 课程分类表course_category是一…

顺序表总结

&#x1f4d1;打牌 &#xff1a; da pai ge的个人主页 &#x1f324;️个人专栏 &#xff1a; da pai ge的博客专栏 ☁️宝剑锋从磨砺出&#xff0c;梅花香自苦寒来 目录 &#x1f324;️arraylist的简…

redis优化秒杀和消息队列

redis优化秒杀 1. 异步秒杀思路1.1 在redis存入库存和订单信息1.2 具体流程图 2. 实现2.1 总结 3. Redis的消息队列3.1 基于list实现消息队列3.2 基于PubSub实现消息队列3.3 基于stream实现消息队列3.3.1 stream的单消费模式3.3.2 stream的消费者组模式 3.4 基于stream消息队列…

WebUI自动化学习(Selenium+Python+Pytest框架)002

新建项目 New Project 新建一个python代码文件 file-new-python file 会自动创建一个.py后缀的代码文件 注意:命名规则,包含字母、数字、下划线&#xff0c;不能以数字开头&#xff0c;不能跟python关键字或包名重复。 ********************华丽分割线********************…

如何保护PPT文件禁止修改?

PPT文件会应用在会议、演讲、课件等工作生活中&#xff0c;当我们制作好了PPT之后&#xff0c;保护内容防止在演示时出错是很重要的&#xff0c;那么如何将PPT文件设置成禁止修改模式呢&#xff1f;今天分享几个方法给大家。 方法一 将PPT文件直接保存或者另存为一份文件&…

自动化测试误区

数据驱动怎么玩? 数据驱动&#xff1a;因为数据的改变导致结果的改变。说人话就是&#xff0c;因为我在百度里搜索的是“selenium”导致结果就是包含了“seleniumhq.org”。因为我登录时候输入的是“zhangsan”导致的结果就是登录之后页面右上角显示“欢迎&#xff0c;zhangs…

办公软件PDF转换工具 - pdftool

办公软件PDF转换工具 - pdftool&#xff0c;支持&#xff1a; 1、图片转PDF&#xff0c;支持图片自动压缩&#xff0c;可预览图片 2、合并PDF&#xff0c;支持多个PDF合并成一个PDF 3、PDF转图片&#xff0c;PDF的每页转成一张图片 4、OFD转PDF&#xff0c;OFD办公常用于国内的…

商用车量产智能驾驶路径思考

1、商用车量产智能驾驶特点 2、量产自动驾驶路径 3、商用车ADAS法规件 4、高等级自动驾驶

针对MAC上,面对8080端口被占用怎么解决

首先输入这个命令&#xff0c;在终端&#xff0c;这个是搜查命令&#xff0c;搜查当前8080端口被谁占着 sudo lsof -i :8080 杀死当前的进程 kill -9 1821 kill -9 (上面写着的PID)

VUE语法--img图片不显示/img的src动态赋值图片显示

1、问题概述 常见情景1&#xff1a;在VUE中使用img显示图片的时候&#xff0c;通过传参的方式传入图片的路径和名称&#xff0c;VUE不加载本地资源而是通过http://localhost:8080/...的地址去加载网络资源&#xff0c;从而出现了图片无法显示的情况。 常见情景2&#xff1a;针…

如何解决eclipse中文汉字乱码的问题

问题&#xff1a;在eclipse中&#xff0c;中文汉字出现乱码。 解决方法&#xff1a; Window -> Preferences -> Workspace ->Text file encoding ->Other->UTF-8 解决后的效果&#xff1a;

【从删库到跑路 | MySQL总结篇】表的增删查改(进阶上)

个人主页&#xff1a;兜里有颗棉花糖 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 兜里有颗棉花糖 原创 收录于专栏【MySQL学习专栏】&#x1f388; 本专栏旨在分享学习MySQL的一点学习心得&#xff0c;欢迎大家在评论区讨论&#x1f48c; 目录 一、数据…

Android系统源码中添加可编译运行执行程序,C,C++

文章目录 Android系统源码中添加可编译运行执行程序&#xff0c;C&#xff0c;C1. 源码product分区中添加可执行程序 Android系统源码中添加可编译运行执行程序&#xff0c;C&#xff0c;C 1. 源码product分区中添加可执行程序 新建一个文件夹&#xff0c;以及一个test.cpp文…

自己动手实现一个深度学习算法——七、卷积神经网络

文章目录 1.整体结构2.卷积层1&#xff09;全连接层存在的问题2&#xff09;卷积运算3&#xff09;填充4&#xff09;步幅5&#xff09;3维数据的卷积运算6&#xff09;结合方块思考7&#xff09;批处理 3.池化层1&#xff09;池化层的特征 4.卷积层和池化层的实现1&#xff09…

Python实现FA萤火虫优化算法优化循环神经网络分类模型(LSTM分类算法)项目实战

说明&#xff1a;这是一个机器学习实战项目&#xff08;附带数据代码文档视频讲解&#xff09;&#xff0c;如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 萤火虫算法&#xff08;Fire-fly algorithm&#xff0c;FA&#xff09;由剑桥大学Yang于2009年提出 , …

相机内存卡照片删除怎么恢复?没有备份可这样操作

在使用相机时&#xff0c;不小心删除了重要的照片可能是每位摄影爱好者的噩梦。然而&#xff0c;通过一些恢复方法&#xff0c;我们有机会挽救被删除的照片。本文将详细介绍相机内存卡照片删除恢复的方法。 图片来源于网络&#xff0c;如有侵权请告知 如果您误删了相机内存卡中…

easyExcel 注解开发 快速以及简单上手 以及包含工具类

easyExcel 简单快速使用 1. mevan 这里版本我这里选的是 poi 4.1.2和 ali的easyexcel 的 3.3.1。 因为阿里easy是根据poi的依赖开发的有关系&#xff0c;两者需要对应要不然就会有很多bug和错误在运行时发生。需要版本对应&#xff0c;然而就是easy的代码也会有bug这个版本是比…

代码随想录算法训练营第五十六天| 647. 回文子串 516.最长回文子序列

文档讲解&#xff1a;代码随想录 视频讲解&#xff1a;代码随想录B站账号 状态&#xff1a;看了视频题解和文章解析后做出来了 647. 回文子串 class Solution:def isPalindrome(self, string):left, right 0, len(string) - 1while left < right:if string[left] ! stri…