Bloom Filter 布隆过滤器

目录

简介

Bloom Filter的基本原理

实现

使用

HashFunc越多,性能越好吗?

如何尽量避免误判?

应用

布隆过滤器优点


简介

Bloom Filter是一种空间效率极高的概率数据结构,它用于测试一个元素是否属于集合。Bloom Filter的优点是插入和查询操作的时间复杂度都是O(1),同时它不需要存储元素本身,可以大幅度节省空间。但它的缺点是存在一定的误判率(false positive rate),即可能会错误地判断一个元素属于集合,但绝不会错误地判断一个元素不属于集合。

下面我将用C++语言简单讲解Bloom Filter的实现原理。

Bloom Filter的基本原理

Bloom Filter使用一个很长的位数组(bit array)和几个哈希函数。初始时,位数组所有位都置为0。当要插入一个元素时,该元素会通过几个哈希函数计算出几个哈希值,这些哈希值对应位数组中的位置,然后将这些位置设为1。查询时,同样计算这些哈希值并检查对应位是否为1,如果所有对应位都是1,则可能元素在集合中;如果有任意一位是0,则元素一定不在集合中

实现


namespace bloom_filter
{
	struct BKDRHash
	{
		size_t operator()(const string& key)
		{
			// BKDR
			size_t hash = 0;
			for (auto e : key)
			{
				hash *= 31;
				hash += e;
			}

			return hash;
		}
	};

	struct APHash
	{
		size_t operator()(const string& key)
		{
			size_t hash = 0;
			for (size_t i = 0; i < key.size(); i++)
			{
				char ch = key[i];
				if ((i & 1) == 0)
				{
					hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
				}
				else
				{
					hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
				}
			}
			return hash;
		}
	};

	struct DJBHash
	{
		size_t operator()(const string& key)
		{
			size_t hash = 5381;
			for (auto ch : key)
			{
				hash += (hash << 5) + ch;
			}
			return hash;
		}
	};

	template<size_t N, class K = string,
		    class Hash1 = BKDRHash, 
			class Hash2 = DJBHash,
			class Hash3 = APHash>
	class BloomFilter
	{
	public:
		void set(const K& key)
		{
			size_t hash1 = Hash1()(key) % N;		//需要%N,防止溢出(除留余数法)
			size_t hash2 = Hash2()(key) % N;
			size_t hash3 = Hash3()(key) % N;
			
			_bits.set(hash1);
			_bits.set(hash2);
			_bits.set(hash3);
		
		}

		// 一般不支持删除,删除一个值可能会影响其他值
		// 非要支持删除,也是可以的,用多个位标记一个值,存引用计数
		// 但是这样话,空间消耗的就变大了
		void Reset(const K& key);

		bool Test(const K& key) 
		{
			size_t hash1 = Hash1()(key) % N;		//需要%N,防止溢出(除留余数法)
			size_t hash2 = Hash2()(key) % N;
			size_t hash3 = Hash3()(key) % N;

			if (_bits.test(hash1) && _bits.test(hash2) && _bits.test(hash3))	//存在误判
				return true;

			return false;		//不存在误判
		}

	private:
		bitset<N> _bits;
	};

使用

布隆过滤器可以理解为哈希与bitset的结合体

对于其他类型的在不在,且数据量很大,那就要借助哈希 + bitset的结合体。

类型不同,只需要借助合理的HashFunc即可。

HashFunc越多,性能越好吗?

布隆过滤器(Bloom Filter)是一种空间效率极高的概率型数据结构,它用于测试一个元素是否属于集合。布隆过滤器之所以在处理大量哈希函数(Hash Functions)时性能好,主要有以下几个原因:

减少哈希碰撞的概率:布隆过滤器使用多个独立的哈希函数来将一个元素映射到位数组中的不同位置。当使用多个哈希函数时,即使某个哈希函数产生了碰撞,其他哈希函数也可能产生不同的位位置,从而减少总体上的错误率。这提高了判断元素是否可能存在于集合中的准确性。

更高的并行性:使用多个哈希函数可以让布隆过滤器在判断元素是否存在时并行地检查多个位,这在计算上可以更加高效。

灵活的错误率控制:布隆过滤器的错误率(即假阳性率)可以通过调整哈希函数的数量来控制。增加哈希函数的数量可以降低错误率,而减少哈希函数的数量则会提高错误率。这使得布隆过滤器可以根据具体的应用需求来调整其性能。

以下是具体的几个点:

空间效率:布隆过滤器不需要存储元素本身,只需要一个位数组和几个哈希函数。这使得它在空间上非常高效,特别是当集合中元素数量很大时。

时间效率:查询操作只涉及几个简单的哈希计算和位操作,这些操作都非常快速。

可扩展性:布隆过滤器可以很容易地扩展以处理更多的元素和更大的数据集,只需增加位数组的大小和/或哈希函数的数量。

需要注意的是,虽然布隆过滤器在处理大量哈希函数时性能好,但是哈希函数的数量也不是越多越好。过多的哈希函数会增加计算的开销,而且超过一定数量后,减少错误率的收益会逐渐降低。因此,通常需要根据具体的应用场景和可接受的错误率来选择合适的哈希函数数量。

一般来说,三个就很好了!

如何尽量避免误判?

增加位数组的大小:更大的位数组可以减少误判的概率,因为每个元素有更多的空间进行映射。

增加哈希函数的数量:更多的哈希函数可以减少不同元素共享位的概率,但同时也增加了计算的开销。

选择好的哈希函数:使用高质量的哈希函数可以最小化哈希碰撞的概率。

应用

近似算法就是布隆过滤器,精确算法就是bitset        两个都需要借助位图

使用的哈希算法相同,相同的小文件是相同的query

哈希切割问题:

A和B相同的query一定是进入了相同的小文件

可以把小文件理解成一个哈希桶,冲突的值进入了相同的桶

让相同序号的桶进入内存中,借助set去重,找交集 

总结:

采用一致的哈希算法进行切割,分配到小文件中

序号相同的小文件内部的资源(出现冲突)进入setA和setB中进行找交集

(原因:相同的数据即交集,相同的数据通过相同的哈希算法一定进入相同序号的小桶(得到相同的hashi))

缺陷

但是有可能哈希切割之后某个文件太大,无法加载到内存中

1.大多数都是相同的query(继续切割效果不好)

2.有很多不同的query(思路:换一个哈希函数,继续切割)

解决思路:不管何种原因,都插入到set中,

第一种情况,后续会插入失败。

第二种情况,不断set之后,内存出现不足,会抛异常,此时更换新的哈希函数

哈希切割的核心思想是,相同的数据总是会因为哈希碰撞进入相同的小桶

举例: 

对于去重,我们用set,对于计数,我们用map

问题2:

一种支持删除的方法:将布隆过滤器中的每个比特位扩展成一个小的计数器(自己实现一个自定义类型),插入时,set成1,同时将内部的计数器++;删除时,采用引用计数的思想删除。
缺陷:
1. 无法确认元素是否真正在布隆过滤器中!
2. 存在计数回绕!
3.增加几倍的存储,消耗巨大,得不偿失!

布隆过滤器优点

1. 增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数,一般比较小),与数据量大小无
关(只需要查K个位置就可以)
2. 哈希函数相互之间没有关系,方便硬件并行运算
3. 布隆过滤器不需要存储元素本身,在某些对保密要求比较严格的场合有很大优势
4. 在能够承受一定的误判时,布隆过滤器比其他数据结构有这很大的空间优势
5. 数据量很大时,布隆过滤器可以表示全集,其他数据结构不能
6. 使用同一组散列函数的布隆过滤器可以进行交、并、差运算
4.2.7 布隆过滤器缺陷
1. 有误判率,即存在假阳性(False Position),即不能准确判断元素是否在集合中(补救方法:再
建立一个白名单,存储可能会误判的数据)
2. 不能获取元素本身(hashfunc不可逆)
3. 一般情况下不能从布隆过滤器中删除元素
4. 如果采用计数方式删除,可能会存在计数回绕问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/887968.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【NoSQL】portswigger NoSQL注入 labs 全解

目录 NoSQL NoSQL 数据库模型 NoSQL 注入的类型 NoSQL 语法注入 检测 MongoDB 中的语法注入 lab1:检测 NoSQL 注入 NoSQL 运算符注入 提交查询运算符 检测 MongoDB 中的运算符注入 lab2:利用 NoSQL 运算符注入绕过身份验证 利用语法注入来提取数据 MongoDB 中的数据…

【rust/egui/android】在android中使用egui库

文章目录 说在前面AndroidStudio安装编译安装运行问题 说在前面 操作系统&#xff1a;windows11java版本&#xff1a;23android sdk版本&#xff1a;35android ndk版本&#xff1a;22rust版本&#xff1a; AndroidStudio安装 安装AndroidStudio是为了安装sdk、ndk&#xff0c;…

大数据实时数仓Hologres(三):存储格式介绍

文章目录 存储格式介绍 一、格式 二、使用建议 三、技术原理 1、列存 2、行存 3、行列共存 四、使用示例 存储格式介绍 一、格式 在Hologres中支持行存、列存和行列共存三种存储格式,不同的存储格式适用于不同的场景。在建表时通过设置orientation属性指定表的存储…

【重学 MySQL】五十三、MySQL数据类型概述和字符集设置

【重学 MySQL】五十三、MySQL数据类型概述和字符集设置 MySQL数据类型概述MySQL字符集设置注意事项 MySQL数据类型概述 MySQL是一个流行的关系型数据库管理系统&#xff0c;它支持多种数据类型&#xff0c;以满足不同数据处理和存储的需求。理解并正确使用这些数据类型对于提高…

Linux性能调优技巧

目录 前言1. CPU性能优化1.1 调整CPU调度策略1.2 合理分配多核处理 2. 内存性能优化2.1 调整内存分配策略2.2 缓存和分页优化 3. 磁盘I/O性能优化3.1 使用合适的I/O调度器3.2 磁盘分区和文件系统优化 4. 网络性能优化4.1 优化网络参数4.2 调整网络拥塞控制算法 5. 系统监控与优…

【机器学习】网络安全——异常检测与入侵防御系统

我的主页&#xff1a;2的n次方_ 随着全球互联网和数字基础设施的不断扩展&#xff0c;网络攻击的数量和复杂性都在显著增加。从传统的病毒和蠕虫攻击到现代复杂的高级持续性威胁&#xff08;APT&#xff09;&#xff0c;网络攻击呈现出更加智能化和隐蔽化的趋势。面对这样的…

Kotlin 处理字符串和正则表达式(二十一)

导读大纲 1.1 处理字符串和正则表达式1.1.1 分割字符串1.1.2 正则表达式和三引号字符串1.1.3 多行三引号字符串IntelliJ IDEA 和 Android Studio 中三重引号字符串内部的语法高亮显示 1.1 处理字符串和正则表达式 Kotlin 字符串与 Java 字符串完全相同 可以将 Kotlin 代码中创建…

Python_文件处理

一个完整的程序一般都包括数据的存储和读取&#xff1b;我们在前面写的程序数据都没有进行实际的存储&#xff0c;因此python解释器执行完数据就消失了。实际开发中&#xff0c;我们经常需要从外部存储介质&#xff08;硬盘、光盘、U盘等&#xff09;读取数据&#xff0c;或者将…

查缺补漏----IP通信过程

1.DHCP协议 H3刚接入网络时&#xff0c;只知道自己的MAC地址&#xff0c;所以需要通过DHCP协议请求自己的IP地址。 通过DHCP协议&#xff0c;得到IP地址、子网掩码、网关与DNS服务器IP地址。 DHCP协议是应用层协议(传输层为UDP)&#xff0c;请求报文是广播&#xff08;H3不知…

‌在Python中,print(f‘‘)是什么?

‌在Python中&#xff0c;print(f’)表示使用f-string对字符串进行格式化输出。‌ f-string是Python 3.6及以上版本引入的一种新的字符串格式化机制&#xff0c;它允许在字符串中直接嵌入表达式&#xff0c;这些表达式在运行时会被其值所替换。使用f-string可以更方便地将变量的…

国庆节快乐前端(HTML+CSS+JavaScript+BootStrap.min.css)

一、效果展示 二、制作缘由 最近&#xff0c;到了国庆节&#xff0c;自己呆在学校当守校人&#xff0c;太无聊了&#xff0c;顺便做一个小demo帮祖国目前庆生&#xff01;&#xff01;&#xff01; 三、项目目录结构 四、准备工作 (1)新建好对应的文件目录 为了方便&#xff…

PHP泛目录生成源码,可生成长尾关键词页面,带使用方法视频教程

介绍&#xff1a; 真正的好东西&#xff0c;搞网站优化seo从业必备。可以快速提升网站权重&#xff0c;带来的流量哗哗的 PHP泛目录生成源码 可生成新闻页面和关键词页面 带使用方法视频教程 泛目录可以用来提升网站收录和排名 合理运用目录可以达到快速出词和出权重的效果…

【Bug】解决 Ubuntu 中 “error: Unable to Find Python3 Executable” 错误

解决 Ubuntu 中 “Unable to Find Python3 Executable” 错误 在 Ubuntu 系统上使用 Python 进行开发时&#xff0c;遇到找不到 python3 可执行文件的错误。 主要问题是无法正常打开终端&#xff08;原生与terminator&#xff09;&#xff0c;找不到python3&#xff0c;且无法…

教育技术革新:SpringBoot在线教育系统开发指南

6系统测试 6.1概念和意义 测试的定义&#xff1a;程序测试是为了发现错误而执行程序的过程。测试(Testing)的任务与目的可以描述为&#xff1a; 目的&#xff1a;发现程序的错误&#xff1b; 任务&#xff1a;通过在计算机上执行程序&#xff0c;暴露程序中潜在的错误。 另一个…

20240930编译orangepi5的Android12使用HDMI0输出

20240930编译orangepi5的Android12使用HDMI0输出 2024/9/30 9:44 缘起&#xff0c;3月份的时候&#xff0c;看PDD拼多多的优惠券给力&#xff01; 就入手了香橙派Orange Pi 5。 自从制作TF卡的启动卡的时候&#xff0c;坏了一张SanDisk的32GB的TF卡。 从此就对TF卡启动无比抵触…

Unity_Obfuscator Pro代码混淆工具_学习日志

Unity_Obfuscator Pro代码混淆工具_学习日志 切勿将密码或 API 密钥存储在您附带的应用程序内。 混淆后的热更新暂时没有想到怎么办 Obfuscator 文档 https://docs.guardingpearsoftware.com/manual/Obfuscator/Description.html商店链接Obfuscator Pro&#xff08;大约$70&a…

Docker面试-24年

1、Docker 是什么&#xff1f; Docker一个开源的应用容器引擎&#xff0c;是实现容器技术的一种工具&#xff0c;让开发者可以打包他们的应用以及环境到一个镜像中&#xff0c;可以快速的发布到任何流行的操作系统上。 2、Docker的三大核心是什么? 镜像&#xff1a;Docker的…

fiddler抓包17_简单接口测试(Composer请求编辑)

课程大纲 ① 进入“Composer”&#xff08;请求编辑&#xff09;界面&#xff1a; Fiddler右侧标签菜单选择“Composer”&#xff0c;中文“请求编辑” 。 ② 编辑、发送请求&#xff1a; 填写接口请求信息&#xff08;或从左侧列表直接拖拽填充&#xff09;&#xff0c;点击“…

如果您忘记了 Apple ID 和密码,按照指南可重新进入您的设备

即使您的 iPhone 或 iPad 由于各种原因被锁定或禁用&#xff0c;也可以使用 iTunes、“查找我的”、Apple 支持和 iCloud 解锁您的设备。但是&#xff0c;此过程需要您的 Apple ID 和密码来验证所有权并移除激活锁。如果您忘记了 Apple ID 和密码&#xff0c;请按照我们的指南重…

问题系列---Android Studio调试services源码不显示参数值

戳蓝字“牛晓伟”关注我哦&#xff01; 用心坚持输出易读、有趣、有深度、高质量、体系化的技术文章&#xff0c;技术文章也可以有温度。 前言 问题系列主要的作用是把我在研究Android源码过程中遇到的各种问题集合起来&#xff0c;当然这些问题在Stack Overflow、google是没…