目录
一. 位图
1.题目:
给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中?
2.解析题目:
3.位图
4.代码以及测试
5.其他题目
二.布隆过滤器
1.介绍
2.实现
3.应用
这两个数据结构都是由哈希思想实现的。
一. 位图
1.题目:
给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在
这40亿个数中?
2.解析题目:
40亿整数需要16G空间,但内存只有4G,所以需要节省空间。
由于题目只需要知道这个数在不在,我们只需要分配1bit的空间判断在不在即可。(0表示不在,1表示在)
这种方法就是位图。
3.位图
4.代码以及测试
#pragma once
//N代表你要多少位比特位
//判断某个数在不在这40亿个数里,实际上我们可能要开42亿比特位(long long能表示42亿不同整数)
template<size_t N>
class bit_set
{
public:
bit_set()
{
_bits.resize(N / 32 + 1, 0);
}
void set(size_t x)//将比特位置为1
{
size_t i = x / 32;
size_t j = x % 32;
_bits[i] |= (1 << j);
}
void reset(size_t x)//将比特位置为1
{
size_t i = x / 32;
size_t j = x % 32;
_bits[i] &= ~(1 << j);
}
bool test(size_t x)//判断整数x在不在
{
size_t i = x / 32;
size_t j = x % 32;
return (_bits[i] &= (1 << j));
}
private:
vector<int> _bits;
};
int main()
{
bitset<100> bs;
bs.set(40);
bs.set(41);
bs.set(39);
bs.set(38);
bs.set(40);
cout << bs.test(40) << endl;
return 0;
}
5.其他题目
题目:给定100亿整数,设计算法找到只出现一次的整数。
二.布隆过滤器
1.介绍
位图的缺点在于只能处理整形。
布隆过滤器通过位图加哈希函数实现其他类型也能映射到相映比特位上。
2.实现
#pragma once
#include"bitset.h"
struct BKDRHash
{
size_t operator()(const string& key)
{
// BKDR
size_t hash = 0;
for (auto e : key)
{
hash *= 31;
hash += e;
}
return hash;
}
};
struct APHash
{
size_t operator()(const string& key)
{
size_t hash = 0;
for (size_t i = 0; i < key.size(); i++)
{
char ch = key[i];
if ((i & 1) == 0)
{
hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
}
else
{
hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
}
}
return hash;
}
};
struct DJBHash
{
size_t operator()(const string& key)
{
size_t hash = 5381;
for (auto ch : key)
{
hash += (hash << 5) + ch;
}
return hash;
}
};
template<size_t N,
class K = string,
class HashFunc1 = BKDRHash,
class HashFunc2 = APHash,
class HashFunc3 = DJBHash>
class BloomFilter
{
public:
void Set(const K& key)
{
size_t hash1 = HashFunc1()(key) % N;
size_t hash2 = HashFunc2()(key) % N;
size_t hash3 = HashFunc3()(key) % N;
_bs.set(hash1);
_bs.set(hash2);
_bs.set(hash3);
/*cout << hash1 << endl;
cout << hash2 << endl;
cout << hash3 << endl << endl;*/
}
// 一般不支持删除,删除一个值可能会影响其他值
// 非要支持删除,也是可以的,用多个位标记一个值,存引用计数
// 但是这样话,空间消耗的就变大了
void Reset(const K& key);
//解决:引用计数,多一些空间用来计数
bool Test(const K& key)
{
// 判断不存在是准确的
size_t hash1 = HashFunc1()(key) % N;
if (_bs.test(hash1) == false)
return false;
size_t hash2 = HashFunc2()(key) % N;
if (_bs.test(hash2) == false)
return false;
size_t hash3 = HashFunc3()(key) % N;
if (_bs.test(hash3) == false)
return false;
// 存在误判的
return true;
}
private:
bit::bitset<N> _bs;
};
3.应用
a.我们玩游戏注册名称时,有时会看到名称已被使用的情况。
这里可以通过布隆过滤器记录已存在的名称,
如果发现此名称不存在,则真的不存在;
如果发现此名称在(映射位置被占用),可能误判名称存在,我们可以再去服务器比对,看看名称是否真的存在。
b.给两个文件,分别有100亿字符串,我们只有1G内存,如何找到两个文件交集?