SpringBoot + Nacos + K8s 优雅停机

  • 1 概念

  • 2 用案例说话

    • 案例前:k8s 停机流程

    • k8s + springboot + nacos 案例

    • 案例优化

  • 3 再次优化

    • mq 和 定时任务

    • 流量控制

  • 4 小结


1 概念

优雅停机是什么?网上说的优雅下线、无损下线,都是一个意思。

优雅停机,通常是指在设备、系统或应用程序中止运作前,先执行一定的流程或动作,以确保数据的安全、预防错误并保证系统的整体稳定。

一般来说,优雅停机可以参考以下步骤以实现:

  1. 备份数据:立即将内存中的所有未保存的修改、缓存等数据保存到数据库或磁盘中。

  2. 停止接收新的请求

  3. 处理未完成的请求

  4. 通知其他依赖组件

  5. 等待所有要素安全退出后,关闭系统

在具体实施时,不同的设备、不同的系统、不同的应用,所需要的优雅停机步骤也不尽相同,甚至需要根据不同的场景来选择不同的方法。

例如,在某些情况下,你可能需要让用户知道,系统即将关闭,并告诉他们应当保存所有的工作并退出系统;而在另一些情况下,你可能需要设计一种策略,能够让系统在无用户介入的情况下,自动保存所有的状态,并在下次启动时恢复之。

但是,无论在哪种情况下,优雅停机的目标都是保护数据,避免错误,并尽量减少到访用户或使用者的不便。

上面的步骤,其实还缺了不少基础的内容,比如,停止请求外,还要停止接收定时任务、停止接收mq消息,等待他们的完成,这2项都是我们微服务中必不可缺的能力。

因此,我希望通过本文,能够更清晰,更详细的讲解,在我已知的真实业务场景下,如何做优雅停机。

文中,很多内容不会讲得太详细,需要大家有一定的搜索能力或者经验!

2 用案例说话

随着微服务的兴起,运维方式由docker -> k8s 变化,优雅停机涉及到的点就越来越多!下面,我们用一个案例,说明优雅停机中的问题和问题解决方案。

案例前:k8s 停机流程

当程序员执行 kubectl delete pod 命令时,两个过程开始:

网络规则即将生效:
  • Kube-apiserver 收到 pod 删除请求,并将 pod 的状态更新为 Extinating at Etcd;

  • 终结点控制器从终结点对象中删除 Pod 的 IP;

  • Kuber-proxy 根据 Endpoint 对象的更改更新 iptables 的规则,并且不再将流量路由到已删除的 pod。

删除容器:
  • Kube-apiserver 收到 pod 删除请求,并将 pod 的状态更新为 Extinating at Etcd;

  • Kubelet 清理节点处的容器相关资源,如存储、网络;

  • 添加 Prestop hook 钩子,等待流量不再发给pod;

  • Kubelet 将SIGTERM发送到容器;

  • 如果容器在默认的 30 秒内没有退出,Kubelet 将发送 SIGKILL 并强制其退出。

图片

k8s + springboot + nacos 案例

图片

PreStopHook 做了2件事情:

  1. nacos反注册

  2. 休眠35秒

通过信号量关闭springboot程序;

其中,k8s的terminationGracePeriodSeconds(宽限期)设置为35s。

问题

springBoot程序关闭时间只有2s, 那么该程序就无法处理完一些线程任务、异步消息、定时任务等。为什么呢?

宽限期设置了35s,PreStop休眠了35s + 一个请求的时间,超过了宽限期,那么 kubelet 就会给与 pod 增加一次性2s的宽限时间。Pod 的生命周期,2s不管程序是否正常结束,都会被Kill -9。

为什么反注册之后需要休眠35s?

这里涉及到nacos服务发现原理,nacos服务变更响应时间:实时;ribbon 默认缓存刷新时间30s;因此,一开始是设置30s的,发现还有feign请求失败的情况,所以设置成了35s以解决这个问题!

nacos服务变更响应时间真的是实时吗?

其实并不一定,nacos服务发现是通过http和udp实现的,udp是实时的,http最大等待时间是10s,但是,udp端口生产环境可能没有开放!所以,案例中的nacos服务发现仅通过http定时轮询实现。

案例优化

上面的案例可以优化的点

  • nacos 反注册后休眠35s,是否可以减少;

  • terminationGracePeriodSeconds设置多少合理?

优化点1

反注册后休眠的35s时候受到nacos服务发现 + ribbon 缓存刷新时间影响,正常应该是 服务发现时间 + 缓存刷新时间 40s才能在极端情况下保证服务停机时,不会再有feign 请求进入。

如果想要缩短这个时间

  • 启用udp,这个需要和运维同学商量,否则10s等待少不了;

  • 监听nacos服务变更通知,发现服务下线后,及时刷新ribbon缓存;

/** * 订阅 nacos 实例变更通知 * 手动刷新 ribbon 服务实例缓存 * nacos client 1.4.6 【1.4.1有重大缺陷,要注意】 */@Component@Slf4jpublic class NacosInstancesChangeEventListener extends Subscriber<InstancesChangeEvent> {    @Resource   private SpringClientFactory springClientFactory;     @PostConstruct    public void registerToNotifyCenter(){        NotifyCenter.registerSubscriber(this);    }   @Override   public void onEvent(InstancesChangeEvent event) {      String service = event.getServiceName();      // service: DEFAULT_GROUP@@demo         ribbonService: demo      String ribbonService = service.substring(service.indexOf("@@") + 2);      log.info("#### 接收到微服务nacos实例变更事件:{} ribbonServiceName: {}", event.getServiceName(), ribbonService);      ILoadBalancer loadBalancer = springClientFactory.getLoadBalancer(ribbonService);      if(loadBalancer != null){         ((ZoneAwareLoadBalancer<?>) loadBalancer).updateListOfServers();         log.info("刷新 ribbon 服务实例:{} 缓存成功", ribbonService);      }   }    @Override   public Class<? extends com.alibaba.nacos.common.notify.Event> subscribeType() {      return InstancesChangeEvent.class;   }        /**     * nacos 1.4.4 ~ 1.4.6 需要加这个方法的实现, 2.1.2以后版本修复了该问题     * 多注册中心时,变更事件没有隔离,因此需要实现该方法来判断事件是否需要处理     * @see <a href="https://github.com/alibaba/nacos/issues/8428">ISSUE #8428 - Nacos InstancesChange Event Scope</a>     * **/    @Override    public boolean scopeMatches(InstancesChangeEvent event) {       return true;    }
}
优化点2

terminationGracePeriodSeconds的值应该略大于 PreStop耗时 + springBoot 停机时间,springBoot 停机时间是由程序业务决定的(mq消息、定时任务、线程池任务、以及备份数据),网上的推荐做法是启用springBoot的优雅停机功能,并实现自定义的关闭逻辑。

springBoot优雅停机的默认缓冲时间是30s,因此,terminationGracePeriodSeconds的时间个人建议10 + 30s即可。

经过优化后

图片

使用 actuator shutdown 方案

有些网贴推荐使用actuator shutdown进行优雅停机,那么看下其流程图:

图片

其实,真正的情况并非如上图所示,因为调用shutdown后,springBoot就会进入优雅停机流程,但是这个流程没有结束,然后就会被kill -15中断,如果线程池没有做好配置,线程池任务没有结束,服务就会关闭。

// 没有设置下面参数,在kill -15时,线程池没有执行结束,会被强制关闭threadPoolTaskExecutor.setWaitForTasksToCompleteOnShutdown(true);threadPoolTaskExecutor.setAwaitTerminationSeconds(30);

3 再次优化

mq 和 定时任务

上面的方案中,提到nacos反注册时,其他服务监听反注册事件,进行ribbon缓存刷新,那么,反注册的服务(停机服务)自身,是否可以也监听该事件呢?答案是可以的。

停机的服务监听nacos反注册事件,判断是自己反注册了,表示准备关机,那么就可以停止对mq消息的监听,停止定时任务,这样就比在优雅停机时,进行mq 和 定时任务的停止更完美。

图片

流量控制

如果没有使用k8s进行pod节点的流量控制,那么大概率会使用 springCloud gateway作为服务网关,因此,gateway 服务也应该监听nacos的反注册事件,从而及时刷新ribbon的缓存,关闭停机服务的流量。

4 小结

经过大量的资料参考、学习,最终得到的一份自己认为合格的优雅停机方案,里面可能有较多的不专业表述,敬请谅解和指正,谢谢。

在本文的最后,还要说下,优雅停机最大的挑战并不是来源于这个优雅停机流程,机械化的流程前人都帮忙躺过了,剩下的是业务服务自身的逻辑:

  • 有没有包含超过30s的业务逻辑,如执行超过30s的请求,定时任务、线程池任务或mq消息;

  • 服务关闭时,如何保存未完成的任务、数据,实现自定义的关闭逻辑;

  • 接口逻辑是否做了幂等;

来源:juejin.cn/post/7281486769290526757

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/399514.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

推荐“应用随机过程”学习材料

今天在检索资料的时候&#xff0c;无意间发现了这份由李东风老师的“应用随机过程 (pku.edu.cn)”。

LeetCode.105. 从前序与中序遍历序列构造二叉树

题目 105. 从前序与中序遍历序列构造二叉树 分析 这道题是告诉我们一颗二叉树的前序和中序&#xff0c;让我们根据前序和中序构造出整颗二叉树。 拿到这道题&#xff0c;我们首先要知道前序的中序又怎样的性质&#xff1a; 前序&#xff1a;【根 左 右】中序&#xff1a;…

LeetCode 450.删除二叉搜索树中的节点和669.修建二叉搜索树思路对比 及heap-use-after-free问题解决

题目描述 450.删除二叉搜索树中的节点 给定一个二叉搜索树的根节点 root 和一个值 key&#xff0c;删除二叉搜索树中的 key 对应的节点&#xff0c;并保证二叉搜索树的性质不变。返回二叉搜索树&#xff08;有可能被更新&#xff09;的根节点的引用。 一般来说&#xff0c;…

Python从进阶到高级—通俗易懂版

Python从进阶到高级—通俗易懂版 一、简介 Python 进阶是我一直很想写的&#xff0c;作为自己学习的记录&#xff0c;过去自己在看一些代码的时候经常会困惑&#xff0c;看不懂&#xff0c;然后自己去查资料、看书籍&#xff0c;慢慢的一个个弄懂&#xff0c;经常沉浸其中。关…

Spring Boot项目中TaskDecorator的应用实践

一、前言 TaskDecorator是一个执行回调方法的装饰器&#xff0c;主要应用于传递上下文&#xff0c;或者提供任务的监控/统计信息&#xff0c;可以用于处理子线程与主线程间数据传递的问题。 二、开发示例 1.自定义TaskDecorator import org.springframework.core.task.Task…

算法沉淀——穷举、暴搜、深搜、回溯、剪枝综合练习一(leetcode真题剖析)

算法沉淀——穷举、暴搜、深搜、回溯、剪枝综合练习一 01.全排列02.子集03.找出所有子集的异或总和再求和04.全排列 II05.电话号码的字母组合 01.全排列 题目链接&#xff1a;https://leetcode.cn/problems/permutations/ 给定一个不含重复数字的数组 nums &#xff0c;返回其…

BioTech - 大型蛋白质复合物的组装流程 (CombFold)

欢迎关注我的CSDN&#xff1a;https://spike.blog.csdn.net/ 本文地址&#xff1a;https://spike.blog.csdn.net/article/details/136187314 CombFold是用于预测大型蛋白质复合物结构的组合和分层组装算法&#xff0c;利用AlphaFold2预测的亚基之间的成对相互作用。CombFold的组…

C++学习:总结

#include <bits/stdc.h> using namespace std; int main() {int n;cin >> n;int a[n];for(int i0 ; i < n ;i ){cin >> a[i];}sort(a,a n);for(int i 0;i< n;i){cout << a[i] << " ";}cout << endl;// 请在此输入您的代…

IDEA查询对应功能的快捷键

首先要知道快捷键的key叫什么&#xff0c;然后通过key来找到对应的快捷键 比如下面这个查找删除导入未使用的类 跳转 或者安装对应插件

【sgCreateTableData】自定义小工具:敏捷开发→自动化生成表格数据数组[基于el-table]

源码 <template><!-- 前往https://blog.csdn.net/qq_37860634/article/details/136141769 查看使用说明 --><div :class"$options.name"><div class"sg-head">表格数据生成工具</div><div class"sg-container&quo…

设计模式----工厂模式

工厂模式 工厂模式即建立创建对象的工厂&#xff0c;实现创建者和调用者分离。 简单工厂模式&#xff1a;该模式对对象创建管理方式最为简单&#xff0c;因为他简单的对不同类对象的创建进行了一层薄薄的封装。该模式通过向工厂传递类型来指定要创建的对象。 工厂方法模式&am…

pip镜像源:清华镜像、阿里云镜像、豆瓣镜像与如何修改默认镜像源

pip镜像源&#xff1a;清华镜像、阿里云镜像、豆瓣镜像与如何修改默认镜像源 &#x1f308; 个人主页&#xff1a;高斯小哥 &#x1f525; 高质量专栏&#xff1a;【Matplotlib之旅&#xff1a;零基础精通数据可视化】 &#x1f3c6;&#x1f3c6;关注博主&#xff0c;随时获取…

MyBatis关联查询和部分主配置文件映射文件

一、主配置文件 注意必须按规定的结构来配置 设置&#xff08;settings&#xff09; 这是 MyBatis 中极为重要的调整设置&#xff0c;它们会改变 MyBatis 的运行时行为。 下表描述了设置中各项设置的含义、默认值等。 看mybatis <settings><setting name"useGe…

善于利用GPT确实可以解决许多难题

当我设计一个导出Word文档的功能时&#xff0c;我面临了一个挑战。在技术选型时&#xff0c;我选择了poi-tl这个模板引擎&#xff0c;因为在网上看到了很多关于它的推荐。poi-tl可以根据模板快速导出Word文档。虽然之前没有做过类似的功能&#xff0c;而且项目中也没有用过&…

超声波清洗机大测评!希亦、洁盟、德国ODI、苏泊尔哪款性价比高?

眼镜逐渐已经成为现在大部分都离不开的一个视线辅助&#xff0c;但是很多朋友对于眼镜的清洗从开始佩戴眼镜时&#xff0c;就没有重视起来。其实清洗眼镜的方法有很多种&#xff0c;手动清洗跟超声波清洗机&#xff0c;后者的清洗相对来说会更加方便快捷一点&#xff0c;且清洗…

啄木鸟家庭维修|空调滤网多久清洗一次?

啄木鸟家庭维修范师傅解答 1、家用空调,如果不是在油烟较多或风沙较大的地区,是空调使用三百小时后就清洗一次过滤网。如果是处于油烟大或风沙大的地区,空调使用一百小时后就要清洗一次过滤网。 2、清洗空调滤网的时候先将空调的前盖打开,然后抠住面板的两边,用力拉开就可以看…

【算法 - 动态规划】最长公共子序列问题

在上两篇文章中&#xff0c;我们将 暴力递归 逐步修改成为 动态规划 &#xff0c;并介绍了有严格 dp表依赖 和无表依赖结构的解题方法。其中&#xff0c;前篇文章中的纸牌博弈问题属于 [L , R]上范围尝试模型。该模型给定一个范围&#xff0c;在该范围上进行尝试&#xff0c;套…

word文件中的图片压缩怎么操作?这几招教你轻松压缩

word文件中的图片压缩怎么操作&#xff1f;在日常办公中&#xff0c;我们经常需要在Word文档中插入图片来丰富内容。但有时候&#xff0c;插入的图片过大&#xff0c;不仅会增加文档的打开速度&#xff0c;还可能影响打印效果。那么&#xff0c;如何在保持图片质量的同时&#…

Android 面试问题 2024 版(其一)

Android 面试问题 2024 版&#xff08;其一&#xff09; 一、Java 和 Kotlin二、安卓组件三、用户界面 (UI) 开发四、安卓应用架构五、网络和数据持久性 一、Java 和 Kotlin Java 中的抽象类和接口有什么区别&#xff1f; 答&#xff1a;抽象类是不能实例化的类&#xff0c;它…

番茄工作法规则

番茄工作法规则: 一个番茄钟共30分钟&#xff0c;包括25分钟的工作时间和5分钟的休息时间。每完成四个番茄钟&#xff0c;就进行一次较长时间的休息&#xff0c;大约15-30分钟。一个番茄钟是不可分割的&#xff0c;一旦开启就必须坚持到底&#xff0c;如果打断&#xff0c;就视…