Spring Cloud——Circuit Breaker上篇
- 一、分布式系统面临的问题
- 1.服务雪崩
- 2.禁止服务雪崩故障
- 二、Circuit Breaker
- 三、resilience4j——服务熔断和降级
- 1.理论知识
- 2.常用配置
- 3.案例实战
- (1)COUNT_BASED(计数的滑动窗口)
- (2)TIME_BASED(时间的滑动窗口)
- 四、参考
一、分布式系统面临的问题
- 复杂分布式体系结构中的应用程序有数十个依赖关系,每个依赖关系在某些时候将不可避免地失败。
1.服务雪崩
- 多个微服务之间调用的时候,假设微服务A调用微服务B和微服务C,微服务B和微服务C又调用其他的微服务,这就是所谓的“扇出”。如果扇出的链路上某个微服务的调用响应时间过长或者不可用,对微服务A的调用就会占用越来越多的系统资源,进而引起系统崩溃,所谓的“雪崩效应”。
- 对于高流量的应用来说,单一的后端依赖可能会导致所有服务器上的所有资源都在几秒钟内饱和。比失败更糟糕的是,这些应用程序还可能导致服务之间的延迟增加,备份队列,线程和其他系统资源紧张,导致整个系统发生更多的级联故障。这些都表示需要对故障和延迟进行隔离和管理,以便单个依赖关系的失败,不能取消整个应用程序或系统。
- 通常当你发现一个模块下的某个实例失败后,这时候这个模块依然还会接收流量,然后这个有问题的模块还调用了其他的模块,这样就会发生级联故障,或者叫雪崩。
2.禁止服务雪崩故障
- 有问题的节点,快速熔断(快速返回失败处理或者返回默认兜底数据【服务降级】)。
- “断路器”本身是一种开关装置,当某个服务单元发生故障之后,通过断路器的故障监控(类似熔断保险丝),向调用方返回一个符合预期的、可处理的备选响应(FallBack),而不是长时间的等待或者抛出异常调用方法处理的异常,这样就保证了服务调用方的线程不会被长时间、不必要地占用,从而避免了故障在分布式系统中的蔓延,乃至雪崩。
二、Circuit Breaker
Circuit Breaker
只是一套规范和接口,落地实现者是Resilience4j(resilience For Java)
和Spring Retry
。
三、resilience4j——服务熔断和降级
1.理论知识
Circuit Breaker
有三个普通状态:关闭(CLOSED)
、开启(OPEN)
、半开(HALF_OPEN)
,还有两个特殊状态:禁用(DISABLED)
、强制开启(FORCED_OPEN)
。
- 当断路器
CLOSED
时,所有的请求都会通过断路器。 - 如果失败率超过设定的阈值,断路器
CLOSED ---> OPEN
,这时所有的请求都会被拒绝。 - 当经过一段时间后,断路器
OPEN ---> HALF_OPEN
,这时仅有一定数量的请求会被放入,并重新计算失败率。 - 如果失败率仍超过阈值,则断路器
HALF_OPEN ---> OPEN
,如果失败率低于阈值,则断路器HALF_OPEN ---> CLOSED
。
- 当断路器
- 断路器使用
滑动窗口
来存储和统计调用的结果。基于调用数量的滑动窗口
:基于访问数量的滑动窗口统计了最近 N 次调用的返回结果。基于时间的滑动窗口
:基于时间的滑动窗口统计了最近 N 秒的调用返回结果。
- 除此之外,断路器还会有两种特殊状态:
DISABLE(始终允许访问)
、FOCRED_OPEN(始终拒绝访问)
。- 这两个状态不会生成熔断器事件(除状态转换外),并且不会记录请求的成功或失败。
- 退出这两个状态的唯一方法就是
触发状态转换
或者重置断路器
。
2.常用配置
配置属性 | 默认值 | 描述 |
---|---|---|
slidingWindowType | COUNT_BASED | 配置滑动窗口的类型,当断路器关闭时,将调用的结果记录在滑动窗口中。滑动窗口的类型可以是count-based或time-based。如果滑动窗口类型是COUNT_BASED,将会统计记录最近slidingWindowSize次调用的结果。如果是TIME_BASED,将会统计记录最近slidingWindowSize秒的调用结果。 |
slidingWindowSize | 100 | 配置滑动窗口的大小。 |
failureRateThreshold | 50 | 以百分比配置失败率阈值。当失败率等于或大于阈值时,断路器状态从关闭变为开启,并进行服务降级。 |
slowCallDurationThreshold | 6000[ms] | 配置调用时间的阈值,高于该阈值的呼叫视为慢调用,并增加慢调用比例。 |
slowCallRateThreshold | 100 | 以百分比的方式配置,断路器把调用时间大于slowCallDurationThreshold的调用视为慢调用,当慢调用比例大于等于阈值时,断路器开启,并进行服务降级。 |
permittedNumberOfCallsInHalfOpenState | 10 | 断路器在半开状态下允许通过的调用次数。 |
minimumNumberOfCalls | 100 | 断路器计算失败率或慢调用率之前所需的最小调用数(每个滑动窗口周期)。例如,如果minimumNumberOfCalls为10,则必须至少记录10个调用,然后才能计算失败率。如果只记录了9次调用,即使所有9次调用都失败,断路器也不会开启。 |
waitDurationInOpenState | 6000[ms] | 断路器从开启过渡到半开应等待的时间。 |
3.案例实战
- 具体案例:
- 6 次访问中当执行方法的失败率达到 50% 时 CircuitBreaker 将进入开启 OPEN 状态(保险丝跳闸断电),拒绝所有请求。
- 等待 5 秒后,CircuitBreaker 将自动从开启 OPEN 状态过渡到半开 HALF_OPEN 状态,允许一些请求通过以测试服务是否恢复正常。
- 如还是异常 CircuitBreaker 将重新进入开启 OPEN 状态;如正常将进入关闭 CLOSE 关闭状态恢复正常处理请求。
(1)COUNT_BASED(计数的滑动窗口)
- 第一步,在调用服务方引入 Circuit Breaker 相关的依赖
<!--resilience4j-circuitbreaker--> <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-starter-circuitbreaker-resilience4j</artifactId> </dependency> <!-- 由于断路保护等需要AOP实现,所以必须导入AOP包 --> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-aop</artifactId> </dependency>
- 第二步,在
OpenFeign
中开启circuitbreaker
spring: cloud: openfeign: # 开启 circuitbreaker 和 分组激活 circuitbreaker: enabled: true # 没开分组永远不用分组的配置。精确优先、分组次之(开了分组)、默认最后 group: enabled: true
- 第三步,配置
resilience4j
相关的配置# 服务器的熔断降级配置 resilience4j: circuitbreaker: configs: default: # 设置 50% 的失败率,超过失败请求百分比 CircuitBreaker 变为 OPEN 状态。 failure-rate-threshold: 50 # 滑动窗口类型 sliding-window-type: COUNT_BASED # 滑动窗口的大小, 配置 COUNT_BASED 表示 6 个请求,配置 TIME_BASED 表示 6 秒。 sliding-window-size: 6 # 断路器计算失败率或慢调用率之前所需的最小样本(每个滑动窗口周期)。如果 minimumNumberOfCalls 为 10, 则必须最少记录 10 个样本,然后才能计算失败率。如果只记录了9次调用,即使所有9次调用都失败,断路器也不会开启。 minimum-number-of-calls: 6 # 是否启用自动从 OPEN ---> HALF_OPEN, 默认值就为 TRUE automatic-transition-from-open-to-half-open-enabled: true # 从 OPEN 到 HALF_OPEN状态需要等待的时间 wait-duration-in-open-state: seconds: 1 # 半开状态允许的最大请求值为 10. permitted-number-of-calls-in-half-open-state: 2 # 记录的异常类型 record-exceptions: - java.lang.Exception # 以上的配置适用于那个微服务 instances: cloud-payment-service: base-config: default
- 第四步,编写Controller
@RestController @RequestMapping("/circuit") public class CircuitController { @Resource private PayCircuitFeignAPI payCircuitFeignAPI; @GetMapping("/order/{id}") @CircuitBreaker(name = "cloud-payment-service", fallbackMethod = "myCircuitFallback") public String myCircuit(@PathVariable("id") Integer id) { return payCircuitFeignAPI.myCircuit(id); } /** * myCircuitFallback就是服务降级后的兜底处理方法 */ public String myCircuitFallback(Integer id, Throwable t) { // 这里是容错处理逻辑,返回备用结果 return "myCircuitFallback,系统繁忙,请稍后再试-----/(ㄒoㄒ)/~~"; } }
(2)TIME_BASED(时间的滑动窗口)
- 只需要将上面基于次数的滑动窗口中关于
resilience4j
相关的配置修改为如下# 服务器的熔断降级配置 resilience4j: timelimiter: configs: default: # 神坑的位置,timelimiter 默认限制远程 1s,超过 1s 就超时异常,配置了降级,就直接走降级逻辑了 timeout-duration: seconds: 20 circuitbreaker: configs: default: #设置 50% 的失败率,超过失败请求百分比 CircuitBreaker 变为 OPEN 状态。 failure-rate-threshold: 50 # 滑动窗口类型 sliding-window-type: TiME_BASED # 慢调用时间阈值,高于这个阈值的视为慢调用并增加慢调用比例。 slow-call-duration-threshold: seconds: 2 #慢调用百分比峰值,断路器把调用时间大于 slow-call-duration-threshold,视为慢调用,当慢调用比例高于这个的时候进入到 OPEN。 slow-call-rate-threshold: 30 # 滑动窗口的大小, 配置 COUNT_BASED 表示 2 个请求,配置 TIME_BASED 表示 2 秒。 sliding-window-size: 2 # 断路器计算失败率或慢调用率之前所需的最小样本(每个滑动窗口周期)。如果 minimumNumberOfCalls 为 10, 则必须最少记录 10 个样本,然后才能计算失败率。如果只记录了9次调用,即使所有9次调用都失败,断路器也不会开启。 minimum-number-of-calls: 2 automatic-transition-from-open-to-half-open-enabled: true # 是否启用自动从 OPEN ---> HALF_OPEN, 默认值就为 TRUE # 从 OPEN 到 HALF_OPEN状态需要等待的时间 wait-duration-in-open-state: seconds: 10 # 半开状态允许的最大请求值为 permitted-number-of-calls-in-half-open-state: 2 # 记录的异常类型 record-exceptions: - java.lang.Exception # 以上的配置适用于那个微服务 instances: cloud-payment-service: base-config: default
四、参考
[1]. Spring Cloud Circuit Breaker
[2]. resilience4j 官网
[3]. resilience4j 中文参考手册