位图和布隆过滤器+哈希切分思想

在这里插入图片描述

文章目录

  • 一.位图(bitset)
    • 底层实现:
  • 二.布隆过滤器(bloomFilter)
    • 底层实现:
  • 三.哈希切分思想

一.位图(bitset)

  • 位图是一种以一个比特位为数据记录单元的哈希表 ,以无符号整数为key值,采用直接定址法(不存在哈希冲突的问题),其哈希映射函数为
    • f ( k e y ) = k e y ( k e y 的存在状态由第 k e y 个比特位来记录 ) f(key)=key(key的存在状态由第key个比特位来记录) f(key)=key(key的存在状态由第key个比特位来记录)
    • 比特位为1表示该映射位对应的key存在,比特位为0表示该映射位对应的key不存在
  • STL中的位图以vector<char>为适配容器,采用位运算的方式实现其功能接口
    在这里插入图片描述
    key存在状态的记录:
    在这里插入图片描述

底层实现:

//Size记录要存放的数据个数上限(非类型模板参数),即至少需要开辟Size个比特位的空间
template<size_t Size>
class bitset
{
public:
	bitset()
	{
		_table.resize((Size / 8) + 1, 0);
	}

	//将第key个比特位设置为1,表示key存在于集合中
	void set(size_t key)
	{
		//计算第key个比特位位于vector的第几个字节
		size_t bytes = key / 8;
		//计算第key个比特位位于某字节的第几个个比特位
		size_t bits = key % 8;
		//通过位运算将第key个比特位设置为1
		_table[bytes] |= (1 << bits);
	}

	//将第key个比特位设置为0,表示将数据key从集合中删除
	void reset(size_t key)
	{
		//计算第key个比特位位于vector的第几个字节
		size_t bytes = key / 8;
		//计算第key个比特位位于某字节的第几个个比特位
		size_t bits = key % 8;
		//通过位运算将第key个比特位设置为0
		_table[bytes] &= ~(1 << bits);
	}

	//查询key是否存在于集合中
	bool test(size_t key)
	{
		//计算第key个比特位位于vector的第几个字节
		size_t bytes = key / 8;
		//计算第key个比特位位于某字节的第几个个比特位
		size_t bits = key % 8;
		//通过位运算判断第key个比特位是否为1
		return _table[bytes] & (1 << bits);
	}


private:
	std :: vector<char> _table;
};
  • 位图只能记录关键字是否存在于集合中,但相比于红黑树和哈希桶,位图具有很高的空间效率和时间效率,非常适合用于处理海量数据:
    • bitset<-1> (-1转换成无符号整数) ,这样一个对象只占用512MB左右的内存,而它可以用于记录所有可能存在key值
    • 实际应用:
      1. 快速查找某个数据是否在一个集合中
      2. 数据排序 + 去重
      3. 求两个集合的交集、并集等
      4. 操作系统中磁盘块标记
  • 配合字符串哈希函数,位图可以用于记录字符串在研究集合中的存在状态,但是不同的字符串可能会对应同一个key值,为了降低不同字符串哈希冲突的概率,一个字符串可以用多个不同的字符串哈希函数多次映射到位图上,由这样的方式设计出的位图称为布隆过滤器

二.布隆过滤器(bloomFilter)

  • 同一个字符串通过多个不同的字符串哈希函数多次映射到同一张位图上,从而有效地降低了位图中字符串发生哈希冲突的概率在这里插入图片描述

底层实现:

  • 通过复用bitset实现:
//字符串哈希映射函数1
struct BKDRHash
{
	size_t operator()(const string& s)
	{
		size_t hash = 0;
		for (auto ch : s)
		{
			hash += ch;
			hash *= 31;
		}

		return hash;
	}
};

//字符串哈希映射函数2
struct APHash
{
	size_t operator()(const string& s)
	{
		size_t hash = 0;
		for (long i = 0; i < s.size(); i++)
		{
			size_t ch = s[i];
			if ((i & 1) == 0)
			{
				hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
			}
			else
			{
				hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
			}
		}
		return hash;
	}
};

//字符串哈希映射函数3
struct DJBHash
{
	size_t operator()(const string& s)
	{
		size_t hash = 5381;
		for (auto ch : s)
		{
			hash += (hash << 5) + ch;
		}
		return hash;
	}
};



// Size是最多不同key的个数
template<size_t Size,class Key = string,class Hash1 = BKDRHash,class Hash2 = APHash,class Hash3 = DJBHash>
class BloomFilter
{
public:
	void set(const Key& key)
	{
		size_t len = Size * _factor;

		//同一个字符串映射三次
		size_t hash1 = Hash1()(key) % len;
		_bs.set(hash1);

		size_t hash2 = Hash2()(key) % len;
		_bs.set(hash2);

		size_t hash3 = Hash3()(key) % len;
		_bs.set(hash3);

	}

	bool test(const Key& key)
	{
		size_t len = Size * _factor;


		//只有三个哈希映射都相同才认为关键字是重复的
		size_t hash1 = Hash1()(key) % len;
		if (!_bs.test(hash1))
		{
			return false;
		}

		size_t hash2 = Hash2()(key) % len;
		if (!_bs.test(hash2))
		{
			return false;
		}

		size_t hash3 = Hash3()(key) % len;
		if (!_bs.test(hash3))
		{
			return false;
		}


		return true;
	}
private:
	static const size_t _factor = 6;
	//由于一个key要占用三个比特位,因此需要额外开辟_factor倍数的空间
	bitset<Size * _factor> _bs;
};
  • 布隆过滤器的应用:
    1. 布隆过滤器不存储元素本身,在某些对数据保密要求比较严格的场合有很大优势
    2. 在能够承受一定的误判的场景下,布隆过滤器比其他数据结构时间和空间效率更高
    3. 数据量很大时,布隆过滤器可以表示数据全集,其他数据结构不能(受内存限制)
    4. 使用同一组哈希函数的布隆过滤器可以进行交、并、差运算
    • 游戏中昵称存在判断等重复数据过滤的场景经常使用布隆过滤器

三.哈希切分思想

  • 哈希切分思想是一种处理海量数据的思想方法—假如现在有100亿个字符串,计算机仅有1G的内存可供使用,如何设计算法找到出现次数最多的那个字符串呢?
    • 首先,对数据集合进行哈希切分,将其切分为N个子文件(N个子文件从0~N-1编号),切分方法是:用字符串哈希函数Hasn()得到每个字符串的key值,然后按照如下映射关系将每个字符串分类放到对应编号为i的子文件中:

    • i = H a s h ( k e y ) m o d    N i =Hash(key)\mod N i=Hash(key)modN在这里插入图片描述

    • 由于相同的字符串一定会被分类到相同的子文件中,因此将每个子文件分别加载到内存中用map进行统计即可.(如果某些子文件太大,则可以继续以相同的方式(用不同的字符串哈希函数)进行哈希切分)

  • 上述哈希切分方法还可以应用于如下的问题:现有文件A和文件B, 它们分别存储着100亿个字符串,计算机只有1G内存可供使用,如何得到两个文件的交集?
    • 一个高效的解决方式:将文件A和文件B分别进行哈希切分:在这里插入图片描述

    • 由于相同的字符串一定会被分类到编号相同的子文件中,因此将子文件Ai和Bi两两加载到内存中用set找出共同元素即可
      在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/48869.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

快速排序qsort讲解

hello大家好&#xff0c;我是c语言boom家宝&#xff0c;今天为大家分享的博客内容是qsort快速排序&#xff0c;简称快排的一个知识点的讲解。 在讲到快排之前&#xff0c;允许博主先提一嘴冒泡排序。大家在c语言的学习过程中&#xff0c;冒泡排序是必不可少会学习到的一个思想&…

Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突

文章目录 解决spark模块依赖冲突2.2.6 执行编译命令2.2.7 编译成功 下一章 核心概念后记 解决spark模块依赖冲突 修改了Hive版本为3.1.2&#xff0c;其携带的jetty是0.9.3&#xff0c;hudi本身用的0.9.4&#xff0c;存在依赖冲突。 1&#xff09;修改hudi-spark-bundle的pom文…

kafka集群

目录 broker ZooKeeper consumer group&#xff08;消费者组&#xff09; 分区&#xff08;Partitions&#xff09; 副本&#xff08;Replicas&#xff09; 主题&#xff08;Topic&#xff09; 偏移量&#xff08;offset&#xff09; broker 一个kafka进程就是一个broker…

备战秋招 | 笔试强训17

目录 一、选择题 二、编程题 三、选择题题解 四、编程题题解 一、选择题 1、假设A为抽象类&#xff0c;下列声明&#xff08;&#xff09;是正确的 A. int fun(A); B. A Obj; C. A fun(int); D. A *p; 2、虚函数可不可以重载为内联&#xff1f; A. 可以 B. 不可以 C. 语法…

uni-app踩坑记

打包h5如何配置域名&#xff1a; 在manifest.json中配置域名 配置完成后无论是测试环境还是正式环境都带上/mobile/&#xff0c;否则会报错404 如何引入调试工具erada: 在默认的index.html中直接引入erada&#xff0c;页面样式会整个错乱&#xff0c;解决方案就是引入官方…

低代码开发平台源码

什么是低代码开发平台&#xff1f; 低代码来源于英文“Low Code&#xff0c;它意指一种快速开发的方式&#xff0c;使用最少的代码、以最快的速度来交付应用程序。通俗的来说&#xff0c;就是所需代码数量低&#xff0c;开发人员门槛低&#xff0c;操作难度低。一般采用简单的图…

学习笔记|大模型优质Prompt开发与应用课(二)|第二节:超高产文本生成机,传媒营销人必备神器

文章目录 01 文字写作技能的革新&#xff0c;各行各业新机遇四大类常见文字工作新闻记者的一天新闻记者的一天–写策划prompt 新闻记者的一天–排采访prompt生成结果prompt生成结果 大模型加持&#xff0c;文字写作我们如何提效营销创作营销创作-使用预置法为不同平台生成文案p…

产品开发八大模块交流︱奇瑞新能源汽车产品开发院院长荣升格

奇瑞新能源汽车股份有限公司研发中心/产品开发院院长荣升格先生受邀为由PMO评论主办的2023第十二届中国PMO大会演讲嘉宾&#xff0c;演讲议题&#xff1a;产品开发八大模块交流。大会将于8月12-13日在北京举办&#xff0c;敬请关注&#xff01; 议题简要&#xff1a; VUCA时代…

从源码分析Handler面试问题

Handler 老生常谈的问题了&#xff0c;非常建议看一下Handler 的源码。刚入行的时候&#xff0c;大佬们就说 阅读源码 是进步很快的方式。 Handler的基本原理 Handler 的 重要组成部分 Message 消息MessageQueue 消息队列Lopper 负责处理MessageQueue中的消息 消息是如何添加…

用WhatsApp开拓和跟进客户,需要注意这些雷点

我们很多新手小白在利用WhatsApp开拓和维护客户的时候&#xff0c;总是容易犯一些错误&#xff0c;踩到雷点&#xff0c;这不利于客户对企业的印象&#xff0c;不利于增长&#xff0c;下面我们来说一些需要注意的点&#xff1a; 1、专业正确的用语 不管外贸人是跟进哪个国家…

29.Git版本控制工具

1.Git简介 Git是一开源的分布式版本控制系统&#xff0c;提供了存储代码、管理版本历史、分支和合并等功能。 版本控制是指对软件开发过程中各种程序代码、配置文件及说明文档等文件变更的管理&#xff0c;是软件配置管理的核心思想之一。它的主要目的是跟踪和记录软件开发过程…

双重for循环优化

项目中有段代码逻辑是个双重for循环&#xff0c;发现数据量大的时候&#xff0c;直接导致数据接口响应超时&#xff0c;这里记录下不断优化的过程&#xff0c;算是抛砖引玉吧~ Talk is cheap,show me your code&#xff01; 双重for循环优化 1、数据准备2、原始双重for循环3、…

如何利用Requestly提升前端开发与测试的效率

痛点 B站最牛的Python接口自动化测试进阶教程合集&#xff08;真实企业项目实战&#xff09; 前端测试 在进行前端页面开发或者测试的时候&#xff0c;我们会遇到这一类场景&#xff1a; 在开发阶段&#xff0c;前端想通过调用真实的接口返回响应在开发或者生产阶段需要验证前…

Vue 中通用的 css 列表入场动画效果

css 代码 .gradientAnimation {animation-name: gradient;animation-duration: 0.85s;animation-fill-mode: forwards;opacity: 0; }/* 不带前缀的放到最后 */ keyframes gradient {0% {opacity: 0;transform: translate(-100px, 0px);}100% {opacity: 1;transform: translate…

算法38:反转链表

一、需求 给你单链表的头节点 head &#xff0c;请你反转链表&#xff0c;并返回反转后的链表。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,4,5] 输出&#xff1a;[5,4,3,2,1] 示例 2&#xff1a; 输入&#xff1a;head [1,2] 输出&#xff1a;[2,1] 示例3&#xff…

MSFCS互相联动

MSF&CS互相联动 1. 前言2. CS联动MSF2.1. 案例测试2.1.1. CS设置联动监听器2.1.2. CS设置联动MSF会话2.1.3. MSF设置监听 3. MSF联动CS3.1. 案例测试3.1.1. MSF生成木马3.1.2. 设置监听3.1.3. CS设置监听3.1.4. MSF转移会话3.1.5. 查看上线 4. 其它 1. 前言 在日常渗透测试…

基于K8s环境·使用ArgoCD部署Jenkins和静态Agent节点

今天是「DevOps云学堂」与你共同进步的第 47天 第⑦期DevOps实战训练营 7月15日已开营 实践环境升级基于K8s和ArgoCD 本文节选自第⑦期DevOps训练营 &#xff0c; 对于训练营的同学实践此文档依赖于基础环境配置文档&#xff0c; 运行K8s集群并配置NFS存储。实际上只要有个K8s集…

VMPWN的入门级别题目详解(二)

实验四 VMPWN4 题目简介 这道题应该算是虚拟机保护的一个变种&#xff0c;是一个解释器类型的程序&#xff0c;何为解释器&#xff1f;解释器是一种计算机程序&#xff0c;用于解释和执行源代码。解释器可以理解源代码中的语法和语义&#xff0c;并将其转换为计算机可以执行的…

史上最强,Python自动化测试框架整理,搭建框架看这篇就够了...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 什么是测试框架呢…

【ruby on rails】M1遇到的一些安装问题

1. homebrew位置变了 原来的Cellar Homebrew Caskroom 都是在 /usr/local/下面 M1在/opt/homebrew下面 2. 装ruby M1电脑安装ruby&#xff0c;装不上的问题 RUBY_CFLAGS"-w" rbenv install 2.7.43. 装puma报错 gem install puma -v 5.5.2 -- --with-openssl-dir…