背景
数据一般是存储于数据库中,数据库中的数据都是存在磁盘上的,磁盘读写的速度相较于内存或者CPU中的寄存器来说是非常慢的了。
如果用户的请求都直接访问数据库的话,请求数量一上来,数据库很容易就崩溃了,所以为了避免用户直接访问数据库,会用 Redis 作为缓存层。
因为Redis 是内存数据库,我们可以直接将数据库的数据缓存在 Redis 中,相当于数据缓存在内存,内存的读写速度比硬盘快很多,这样大大提升了系统的性能。
引入了缓存层,就会有缓存异常的三个问题,分别是缓存雪崩、缓存击穿、缓存穿透。
缓存雪崩
通常为了保证缓存中的数据与数据库中数据的一致性,会给 Redis 里的数据设置过期时间,当缓存数据过期后,用户访问的数据如果不在数据库中,业务系统就需要重新生成缓存,因此会去访问数据库,并将数据缓存到 Redis 中,这样后续再次请求就可以直接命中缓存了。
当大量缓存数据在同一时间过期(失效)或者 Redis 故障宕机时,此时如果有大量的用户请求都无法命中缓存,就会全部访问数据库,从而导致数据库的压力剧增,严重的会造成数据库宕机,从而形成一系列的连锁反应,造成整个系统崩溃,这就是缓存雪崩。
缓存雪崩发生的两个原因:
- 大量数据同时过期或失效
- Redis 故障宕机
大量数据同时过期
解决方法:
- 均匀设置过期时间
- 互斥锁
- 后台更新缓存
1. 均匀设置过期时间
避免将大量的数据设置成同一个过期时间。可以在对缓存数据设置过期时间的时候,给这些数据的过期时间加上一个随机数,这样就保证数据不会再同一时刻过期。
2. 互斥锁
当业务线程在处理用户请求时,如果发现访问的数据不在 Redis 里,就加一个互斥锁,保证同一时间内只有一个请求在构建缓存(从数据库中读取数据,再将数据更新到Redis),当缓存构建完成后,再释放锁。未能获取互斥锁的请求,要么等待锁的释放后再去请求缓存,要么直接返回空值。
3. 后台更新缓存
业务线程不再负责更新缓存,缓存也不设置有效期,而是让缓存“永久有效”,并将更新缓存的工作交给后台线程定时更新。
事实上,缓存数据不设置有效期,缓存中的数据也不会一直留存在内存中,因为当系统内存紧张的时候,有些缓存数据会被淘汰,而在缓存被淘汰到下一次后台定时更新缓存的这段时间内,业务线程读取缓存失败会返回空值,业务的视角就是数据丢失了。
解决上面的问题有两种方法:
方式一:
后台线程不仅负责定时更新缓存,而且负责频繁地检测缓存是否有效,检测到缓存失效了,原因可能是系统紧张而被淘汰的,于是就要马上从数据库中获取数据,并更新到缓存。
这种方式检测间隔不能太长,否则在间隔期间内用户获取数据也是有误的,所以检测时间最好是毫秒级,但是有时间间隔用户体验一般。
方式二:
在业务线程发现缓存数据失效后,通过消息队列发送一条消息通知后台线程更新缓存,后台线程收到消息后,在更新缓存前可以判断缓存是否存在,存在就不执行更新缓存操作;不存在就读取数据库数据,并将数据加载到缓存。这种方式比第一种方式缓存的更新会更及时,用户体验较好。
Redis 故障宕机
针对Redis 故障宕机而引发的缓存雪崩的问题,常见的应对方法有两种:
- 服务熔断或请求限流机制
- 构建Redis 缓存高可靠集群
1. 服务熔断或请求限流机制
因为Redis 故障宕机而导致换保存雪崩问题时,我们可以启动服务熔断机制,暂停业务应用对缓存服务的访问,直接返回错误,不再继续访问数据库,从而降低对数据库的访问压力,保证数据库的正常运行,然后等到 Redis 恢复后,再允许业务应用访问缓存服务。
服务熔断机制虽然保护了数据库的正常运行,但是暂停了业务访问数据,全部业务无法正常工作。为了减少对业务的影响,我们可以启用请求限流机制,只将少部分的请求发送到数据库进行处理,再多的请求就在入口处直接拒绝服务,等到 Redis 恢复正常并把缓存预热后,再移除对请求限流机制。
2. 构建Redis缓存高可用集群
服务熔断或请求限制机制是缓存雪崩发生后的应对方案,最好可以通过主从节点的方式构建Redis缓存高可靠集群。
如果Redis缓存的主节点宕机,从节点可以切换成为主节点,继续提供缓存服务,避免了由于Redis故障宕机而导致的缓存雪崩的问题。
缓存击穿
在业务中通常会有几个数据会被频繁地访问,这些数据被称为热点数据。
如果缓存中的某个热点数据过期了,此时大量的请求访问了该热点数据,就无法从缓存中读取,直接访问数据库,数据库很容易就被高并发的请求冲垮,这就是缓存击穿。
可以发现缓存击穿和缓存雪崩相似,可以认为缓存击穿时缓存雪崩的一种特殊情况。
应对缓存击穿可以采取缓存雪崩中说的两种解决方案:
- 互斥锁:保证同一时刻只有一个业务线程更新缓存,未能获取互斥锁的请求,要么等待互斥锁释放后重新读取缓存,要么返回空值或者默认值
- 不给热点数据设置过期时间,由后台异步更新缓存,或者在热点数据准备过期前,提前通知后台线程更新缓存以及重新设置过期时间。
缓存穿透
当用户访问的数据,既不在缓存中,又不在数据库中,导致请求在访问缓存时,发现缓存缺失,再去访问数据库时,发现数据库中也没有要访问的数据,没办法构建缓存数据,来服务后续的请求。那么当有大量这样的请求到来时,数据库的压力骤增,这就是缓存穿透的问题。
缓存穿透有两种情况:
- 业务误操作,缓存中的数据和数据库中的数据都被误删除了,所以导致缓存和数据库中都没有数据
- 恶意攻击,故意大量访问某些读取不存在数据的业务
应对缓存穿透的方案有三种:
- 非法请求限制
- 缓存空值或者默认值
- 使用布隆过滤器快速判断数据是否存在,避免通过查询数据来判断数据是否存在
1. 非法请求限制
当有大量的请求访问不存在的数据的时候,也会发生缓存穿透,因此在API入口处判断请求参数是否合理,请求参数是否含有非法值、请求字段是否存在,如果判断出是恶意请求就直接返回错误,避免进一步访问缓存和数据库。
2. 缓存空值或默认值
当线上业务发现缓存穿透的现象时,可以针对查询的数据,在缓存中设置一个空值或者默认值,这样后续请求就可以从缓存中读取到空值或者默认值,返回给应用,而不会继续查询数据库。
3. 使用布隆过滤器快速判断数据是否存在,避免通过查询数据库来判断数据是否存在
可以在写数据库数据的时候,使用布隆过滤器做个标记,然后再用户请求到来时,业务线程先确定缓存失效后,可以通过查询布隆过滤器快速判断数据是否存在,如果不存在,就不用查询数据库来判断数据是否存在。
即使发生了缓存穿透,大量请求也只会查询缓存和布隆过滤器,而不会查询数据库,保证了数据库能正常运行,Redis 自身也是支持布隆过滤器的。