一、缓存穿透
1、缓存穿透
- 查询一个不存在的数据,mysql查询不到数据也不会直接写入缓存,就会导致每次请求都查数据库。
- 即:大量请求根本不存在的key
2、查询流程
3、出现原因
- 业务层误将缓存和库中的数据删除了,也可能是有人恶意攻击,专门访问库中不存在的数据
4、解决方法一(设置value为null)
缓存空数据,查询返回的数据为空,仍把这个空结果进行缓存
- 优点:简单
- 缺点:消耗内存,可能导致不一致性
5、解决方法二(布隆过滤器)
bitmap(位图):相当于是一个以 (bit) 位为单位的数组,数组中每个单元只能存储二进制数0或1。
布隆过滤器作用:布隆过滤器可以用于检索一个元素是否在一个集合中。
当访问id存在的时候,会根据布隆过滤器的hash函数获取hash值来计算相应的位置并且修改0为1。当查询的时候就会根据生成的hash函数获取hash值判断对应位置是否为1,如果都为1,则可以进入redis缓存查询,否则不可以。
误判: 为空的数据计算的hash值在数组中都为1,但实际上该数据不存在
误判率:数组越小误判率就越大,数组越大误判率就越小,但是同时带来了更多的内存消耗。一般误判率是5%。
- 布隆过滤器优点:内存占用较少,没有多余key。
- 布隆过滤器优点:实现复杂,存在误判。
6、概括
Redis的使用场景
- 根据自己简历上的业务进行回答
- 缓存:穿透、击穿、雪崩、双写一致、持久化、数据过期、淘汰策略
- 分布式锁:setnx、redisson
什么是缓存穿透,怎么解决
- 缓存穿透:查询一个不存在的数据,mysql查询不到数据也不会直接写入缓存,就会导致每次请求都查数据库。
- 解决方案一:缓存空数据
- 解决方案二:布隆过滤器
7、 面试官:什么是缓存穿透?怎么解决?
- 缓存穿透是指查询一个一定不存在的数据,如果从存储层查不到数据则不写入缓存,这将导致这个不存在的数据每次请求都要到 DB 去查询,可能导致 DB 挂掉。这种情况大概率是遭到了攻击。
- 解决方案的话,我们通常都会用布隆过滤器来解决它。
8、 面试官:你能介绍一下布隆过滤器吗?
- 布隆过滤器主要是用于检索一个元素是否在一个集合中。我们当时使用的是redisson实现的布隆过滤器。
- 它的底层主要是先去初始化一个比较大数组,里面存放的二进制0或1。在一开始都是0,当一个key来了之后经过3次hash计算,模于数组长度找到数据的下标然后把数组中原来的0改为1,这样的话,三个数组的位置就能标明一个key的存在。查找的过程也是一样的。
- 当然是有缺点的,布隆过滤器有可能会产生一定的误判,我们一般可以设置这个误判率,大概不会超过5%,其实这个误判是必然存在的,要不就得增加数组的长度,其实已经算是很划分了,5%以内的误判率一般的项目也能接受,不至于高并发下压倒数据库。
二、缓存击穿
1、概念
- 给某一个key设置了过期时间,当key过期的时候,恰好这时间点对这个key有大量的并发请求过来,这些并发的请求可能会瞬间把DB压垮。
- 即:redis中一个热点key过期(大量用户访问该热点key,但是热点key过期)
2、解决方法一(互斥锁)
- 优点:强一致性
- 缺点:性能差
- 适用于与交易相关的业务
当线程1查询缓存的时候,未命中缓存,然后获取互斥锁成功。此时线程1去查询数据库,将数据写入缓存,最后释放锁。
在线程1查询缓存的时候,未命中缓存,然后线程2去获取互斥锁,获取失败,因为线程1获取到了互斥锁,此时线程2只能休眠一会再重试。当线程1写入缓存成功后并释放锁的同时,线程2重试命中缓存,命中成功直接获取缓存。
3、解决放法二(逻辑过期)
- 优点:高可用,性能好
- 缺点:数据不一致
- 适用于注重用户的体验
4、概括
- 缓存击穿:给某一个key设置了过期时间,当key过期的时候,恰好这时间点对这个key有大量的并发请求过来,这些并发的请求可能会瞬间把DB压垮。
- 解决方案一:互斥锁,强一致,性能差。
- 解决方案二:逻辑过期,高可用,性能优,不能保证数据绝对一致。
5、 面试官:什么是缓存击穿 ? 怎么解决 ?
- 缓存击穿的意思是对于设置了过期时间的key,缓存在某个时间点过期的时候,恰好这时间点对这个Key有大量的并发请求过来,这些请求发现缓存过期一般都会从后端 DB 加载数据并回设到缓存,这个时候大并发的请求可能会瞬间把 DB 压垮。
- 解决方案有两种方式:
- 第一可以使用互斥锁:当缓存失效时,不立即去load db,先使用如 Redis 的 setnx或者Redisson去设置一个互斥锁。当操作成功返回时再进行 load db的操作并回设缓存,否则重试get缓存的方法
- 第二种方案可以设置当前key逻辑过期,大概是思路如下:
- ①在设置key的时候,设置一个过期时间字段一块存入缓存中,不给当前key设置过期时间。
- ②当查询的时候,从redis取出数据后判断时间是否过期。
- ③如果过期则开通另外一个线程进行数据同步,当前线程正常返回数据,这个数据不是最新。
- 当然两种方案各有利弊:
- 如果选择数据的强一致性,建议使用分布式锁的方案,性能上可能没那么高,锁需要等,也有可能产生死锁的问题
- 如果选择key的逻辑删除,则优先考虑的高可用性,性能比较高,但是数据同步这块做不到强一致。
三、缓存雪崩
1、缓存雪崩
缓存雪崩是指在同一时段大量的缓存key同时失效或者Redis服务宕机,导致大量请求到达数据库,带来巨大压力。
2、查询流程
3、解决方法
- 给不同的Key的TTL添加随机值。
- 集群模式利用Redis集群提高服务的可用性哨兵模式。(哨兵模式,集群模式)
- 给缓存业务添加降级限流策略。(nginx或者Spring Cloud GateWay)
- 给业务添加多级缓存。
4、面试官:什么是缓存雪崩?怎么解决 ?
- 缓存雪崩意思是设置缓存时采用了相同的过期时间,导致缓存在某一时刻同时失效,请求全部转发到DB,DB 瞬时压力过重雪崩。与缓存击穿的区别:雪崩是很多key,击穿是某一个key缓存。
- 解决方案主要是可以将缓存失效时间分散开,比如可以在原有的失效时间基础上增加一个随机值,比如1-5分钟随机,这样每一个缓存的过期时间的重复率就会降低,就很难引发集体失效的事件。
5、打油诗速记
- 《缓存三兄弟》
- 穿透无中生有key,布隆过滤null隔离。
- 缓存击穿过期key,锁与非期解难题。
- 雪崩大量过期key,过期时间要随机。
- 面试必考三兄弟,可用限流来保底 。
四、redis做为缓存,mysql的数据如何与redis进行同步呢?(双写一致性)
1、双写一致性
- 当修改了数据库的数据也要同时更新缓存的数据,缓存和数据库的数据要保持一致。
- 读操作:缓存命中,直接返回;缓存未命中查询数据库,写入缓存,设定超时时间。
- 写操作:延迟双删。
那么先删除缓存还是先修改数据库呢? (2.3)
那么为什么要删除两次缓存呢?(4)
那么为什么要延时删除呢?(5)
2、先删除缓存再修改数据库
此时缓存和数据库的值分别为10,10
如下是正常的情况,数据库和缓存的值修改正常
但是一般而言线程是交叉进行的
此时缓存和数据库的值分别为10,20。造成了数据库和缓存不一致情况
3、先修改数据库再删除缓存
此时缓存和数据库的值分别为10,10
如下是正常的情况,数据库和缓存的值修改正常
但是一般而言线程是交叉进行的
此时缓存和数据库的值分别为10,20。造成了数据库和缓存不一致情况
4、为什么要进行两次删除缓存呢?
为了保证缓存和数据库的一致性。因为不管是先修改数据库还是先删缓存都会导致数据库和缓存的值不同。而两次删除缓存会避免这种情况发生。但是一般情况下数据库都是主从分离的,所以可能出现主从数据库数据不一致的情况。
5、为什么要进行延迟双删呢?
一般情况下数据库都是主从分离的,所以可能出现主从数据库数据不一致的情况。为了避免这种情况,就会延迟一会,等待主节点同步到从节点。所以要延时,但是这个延时时间不好控制,在这个过程中依然可能会出现脏数据。所以延时双删只是控制减少了脏数据的出现,但无法避免脏数据的出现。
6、一致性方法一(强一致性)
使用分布式锁来避免数据的不一致性
但是这种普通的读写加锁性能太差,所以可以使用读写锁来处理这种问题。因为缓存一般都是读多写少,所以可以分别使用读锁和写锁来进行加锁
- 共享锁:读锁readLock,加锁之后,其他线程可以共享读操作
- 排他锁:独占锁writeLock,加锁之后,阻塞其他线程读写操作
读锁相关代码,注意读锁和写锁的锁名必须一致
写锁相关代码
但是此方法虽然保持了强一致,但是性能不高。
7、一致性方法二(异步通知保证数据的最终一致性)
8、概括
redis做为缓存,mysql的数据如何与redis进行同步呢? (双写一致性)
- 介绍自己简历上的业务,我们当时是把文章的热点数据存入到了缓存中,虽然是热点数据,但是实时要求性并没有那么高,所以,我们当时采用的是异步的方案同步的数据
- 我们当时是把抢券的库存存入到了缓存中,这个需要实时的进行数据同步,为了保证数据的强一致,我们当时采用的是redisson提供的读写锁来保证数据的同步
那你来介绍一下异步的方案(你来介绍一下redisson读写锁的这种方案)
允许延时一致的业务,采用异步通知
- 使用MQ中间中间件,更新数据之后,通知缓存删除
强一致性的,采用Redisson提供的读写锁o
- 共享锁: 读锁readLock,加锁之后,其他线程可以共享读操作
- 排他锁:独占锁writeLock也叫,加锁后,阻塞其他线程读写操作
9、面试官:redis做为缓存,mysql的数据如何与redis进行同步呢?(双写一致性)
- 嗯!就说我最近做的这个项目,里面有xxxx(根据自己的简历上写)的功能,需要让数据库与redis高度保持一致,因为要求时效性比较高,我们当时采用的读写锁保证的强一致性。
- 我们采用的是redisson实现的读写锁,在读的时候添加共享锁,可以保证读读不互斥,读写互斥。当我们更新数据的时候,添加排他锁,它是读写,读读都互斥,这样就能保证在写数据的同时是不会让其他线程读数据的,避免了脏数据。这里面需要注意的是读方法和写方法上需要使用同一把锁才行。
10、面试官:那这个排他锁是如何保证读写、读读互斥的呢?
- 其实排他锁底层使用也是setnx,保证了同时只能有一个线程操作锁住的方法
11、面试官:你听说过延时双删吗?为什么不用它呢?
- 延迟双删,如果是写操作,我们先把缓存中的数据删除,然后更新数据库,最后再延时删除缓存中的数据,其中这个延时多久不太好确定,在延时的过程中可能会出现脏数据,并不能保证强一致性,所以没有采用它。
五、redis做为缓存,数据的持久化是怎么做的?
在Redis中提供了两种数据持久化的方式:
- RDB
- AOF
1、RDB
RDB全称Redis Database Backup file (Redis数据备份文件),也被叫做Redis数据快照。简单来说就是把内存中的所有数据都记录到磁盘中。当Redis实例故障重启后,从磁盘读取快照文件,恢复数据。
主动备份
被动备份
save 300 10: 表示300秒内,有10个key被修改可以执行bgsave
2、RDB执行原理
bgsave的子线程执行的时候不会阻塞主线程,不过在开启子线程的时候会阻塞主线程,但是由于时间是纳秒级所以几乎毫无影响。
bgsave开始时会fork主进程得到子进程,子进程共享主进程的内存数据。完成fork后读取内存数据并写入 RDB 文件。ork采用的是copy-on-write技术
- 当主进程执行读操作时,访问共享内存
- 当主进程执行写操作时,则会拷贝一份数据,执行写操作
在linux系统中进程不能直接操作物理内存,需要页表来进行虚拟内存和物理内存直接的映射。主进程通过页表关联到物理内存真正的地址,这样就能对物理内存进行读和写操作了。
当开启RDB的时候,主进程就会fork(将主进程的页表数据复制过去,因此子进程就有了和主进程相同的映射关系了,这样子进程就可以根据页表进行对物理内存中数据的读取了)一个子进程。然后子进程就可以去物理内存读取数据并且写入到磁盘中去,生成新的RDB文件,并且将新的RDB文件覆盖旧的RDB文件中去。
但是子进程在写RDB文件的过程中,主进程可以接受用户的请求来修改内存中的数据。这就导致了读写冲突,甚至可能产生脏数据。为了避免这种问题的发生,fork底层会采用Copy On Write的技术。在fork的过程中,就会将数据标记为Read—Only(只读)模式,任何一个进程只能来读数据不能来写数据。如果主进程进行写数据,那么就会将物理内存中的数据拷贝一份,然后对这个拷贝的数据进读和写,避免了脏写的情况。
3、AOF
AOF全称为Append Only File(追加文件)。Redis处理的每一个写命令都会记录在AOF文件,可以看做是命令日志文件。
AOF默认是关闭的,需要修改redis.conf配置文件来开启AOF:
AOF的命令记录的频率也可以通过redis.conf文件来配:
因为是记录命令,AOF文件会比RDB文件大的多。而且AOF会记录对同一个key的多次写操作,但只有最后一次写操作才有意义。通过执行bgrewriteaof命令,可以让AOF文件执行重写功能,用最少的命令达到相同效果。
4、RDB和AOF对比
5、面试官: redis做为缓存,数据的持久化是怎么做的?
- 在Redis中提供了两种数据持久化的方式: 1、RDB 2、AOF
6、这两种持久化方式有什么区别呢?
- RDB是一个快照文件,它是把redis内存存储的数据写到磁盘上,当redis实例宕机恢复数据的时候,方便从RDB的快照文件中恢复数据。
- AOF的含义是追加文件,当redis操作写命令的时候,都会存储这个文件中,当redis实例宕机恢复数据的时候,会从这个文件中再次执行一遍命令来恢复数据。
7、这两种方式,哪种恢复的比较快呢?
- RDB因为是二进制文件,在保存的时候体积也是比较小的,它恢复的比较快,但是它有可能会丢数据,我们通常在项目中也会使用AOF来恢复数据,虽然AOF恢复的速度慢一些,但是它丢数据的风险要小很多,在AOF文件中可以设置刷盘策略,我们当时设置的就是每秒批量写入一次命令。