1、什么是布隆过滤器
布隆过滤器是一个很长的二进制向量和一系列随机hash函数。布隆过滤器可以用于检索一个元素是否在一个集合中。
常见的hash函数的应用hashMap、hashSet等
回顾一下hashMap的结构
hashMap由数组+链表+红黑树(java1.8后,链表元素长度大于8,且数组长度大于64时,链表转为红黑树,优化查询于插入的效率),散列值通过hash函数确定key(桶数组的下标),key冲突(散列冲突)时,存入后续的链表中。
在数据量较小的情况下hash散列表是能够支撑我们的业务场景的,无hash冲突情况下时间复杂度为log(1),hash冲突时为log(n)。当存储数据达到百万、千万时,散列所需的存储空间越来越大,检索速度也越来越慢,而布隆过滤器在查询于插入的时间与空间复杂度都为log(k)。
2、布隆过滤器原理
2.1 bitmap
布隆过滤器的数据存储是基于bitmap的。bitmap的基本思想就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。
在bitmap的位数组中每一位表示一个数,0表示不存在,1表示存在,如下表示{1,2,4,6}这个数组。
假设需要存储2亿个int整数
在Java中,int占4字节,1字节=8位(1 byte = 8 bit)
每个数字用int存储,那就是2亿个int,占用的空间约为 (200000000*4/1024/1024/1024)≈735M
按位存储,2亿个数就是2亿位,占用空间约为 (200000000/8/1024/1024/1024)≈23.8M
2.2 布隆过滤器的原理
bitmap只能存储整数,其他数据类型就捉襟见肘了。布隆过滤器把一个元素,通过 K 个 Hash 函数将这个元素映射成bitmap中的 K 个点,把它们置为1。检索时,我们只要看看这些点是不是都是 1 就(大约)知道集合中有没有它了:
如果这些点有任何一个 0,则被检索元素一定不在;
如果都是 1,则被检索元素很可能在。
以hello的存储为例,把1,3,5置为1,查询时hash值为1,3,5为1,则认定hello存在
2.3 缺点
误判率
假设保存两个值,hello和wordhello对应的index为1,3,5word对应的index为2,4,6
而此时来了一个值java,对应的index为1,4,5查询得出结果:exist(java) = true但其实,java这个数据并不存在,这就会产生一定的误判。
删除
如果hash(hello)=1,3,5这时候hash(java)=1,4,6如果删除了hello的值,index = 1,3,5置为0,同时意味着java在判定是否存在时为false
3、布隆过滤器的实现
布隆过滤器使用时需要确定两个变量,容量(位数组的大小,容量越大,hash冲突可能性越小)与误判率(误判率越小hash运算次数越多,效率越低)。要根据实际业务场景预判容量,再设定误判率。
误判率与容量关系推导:https://juejin.cn/post/6888209593378291720
3.1guava布隆过滤器
Google提供的guava包里面也提供了布隆过滤器,
引入pom坐标
<dependency>
<groupId>com.google.guava</groupId>
<artifactId>guava</artifactId>
</dependency>
运用Demo
@Test
public void bloomFilterTest() {
BloomFilter<String> b = BloomFilter.create(Funnels.stringFunnel(Charset.forName("utf-8")), 10000, 0.001);
b.put("121");
b.put("122");
b.put("123");
Assert.assertEquals(false, b.mightContain("12321"));
}
3.2 Redis布隆过滤器
redis里的setbit指令,对于布隆过滤器的实现十分便利:
setbit key offset value
key是键,offset是偏移量,value就是1或者0。比如下面的就是将key1 的第5位置为1。
引入redission插件
<dependency>
<groupId>org.redisson</groupId>
<artifactId>redisson</artifactId>
</dependency>
使用demo
@Test
public void redissionBoolFilter() {
Config config = new Config();
config.useSingleServer().setAddress("redis://127.0.0.1:6379");
RedissonClient redisson = Redisson.create(config);
RBloomFilter<String> bloomFilter = redisson.getBloomFilter("user");
// 初始化布隆过滤器,预计统计元素数量为10000,期望误差率为0.01
bloomFilter.tryInit(10000L, 0.01);
bloomFilter.add("Tom");
bloomFilter.add("Jack");
Assert.assertEquals(true, bloomFilter.contains("Tom")); //true
Assert.assertEquals(false, bloomFilter.contains("Linda"));
}
4、布隆过滤器在特征计算平台的应用
特征计算平台在统计ip维度、设备标识维度的数据时,数据量是巨大的,在统计以天为统计维度时,使用布隆过滤器不仅减少服务器压力,也提升服务性能。
4.1 guava布隆过滤器与redis过滤器的对比
guava过滤器
优点
1、基于内存,性能高
缺点
1、基于JVM内存的一种布隆过滤器,重启即失效
2、本地内存无法用在分布式场景
3、不支持大数据量存储
redis过滤器
优点:
1、可扩展性Bloom过滤器:一旦Bloom过滤器达到容量,就会在其上创建一个新的过滤器
2、基于redis,不存在重启即失效或者定时任务维护的成本
3、支持分布式场景,拓展性高
缺点:
1、有网络io延迟,性能较guava布隆过滤器低