Kubernetes 高可用性入门:初学者指南

Kubernetes 高可用性解释

  • 引言
  • 一、需要 Kubernetes 高可用性
  • 二、Kubernetes 控制平面的高可用性
    • 2.1、etcd
    • 2.2、API 服务器
    • 2.3、Kube 调度器
    • 2.4、Kube 控制器管理器
    • 2.5、云控制器管理器
  • 三、工作节点的高可用性
  • 四、Kubernetes 集群可用性度量
  • 五、Kubernetes 可用性常见问题
  • 六、总结

引言

在本文中将研究 Kubernetes 的高可用性。以及研究每个 Kubernetes 组件的弹性和容错能力。

Kubernetes 高可用性对于确保应用程序始终可用至关重要。本文提供了 Kubernetes 高可用性的全面的初学者指南,涵盖了基本概念、组件和最佳实践。

文章首先介绍了高可用性的重要性,并概述了 Kubernetes 中实现高可用性的方法。然后,它深入探讨了 Kubernetes 的核心高可用性组件。

实现 Kubernetes 高可用性的最佳实践,例如:

  • 使用多主控制平面: 避免单点故障。
  • 部署高可用节点: 使用多个节点来运行工作负载。
  • 使用自动 Pod 重新调度: 在节点故障时重新启动 Pod。
  • 监控和告警: 主动监控集群并对问题发出警报。

一、需要 Kubernetes 高可用性

Kubernetes 是一个分布式系统,它容易受到多种故障的影响。对于公司来说,拥有高可用性的 Kubernetes 以提供良好的客户体验至关重要。在发生意外中断时,如果集群在一个或多个组件发生故障后仍无法继续运行,则停机可能会导致收入损失、声誉问题等。

通过在 Kubernetes 中实施 HA,可以降低停机风险,在集群上运行的应用程序和服务仍然可用且可供用户访问,并且系统可以在没有人为干预的情况下快速从故障中恢复。在较高级别上,这可以通过部署具有跨多个可用区或区域的网络拓扑的控制平面组件的多个副本来实现。

二、Kubernetes 控制平面的高可用性

Kubernetes 控制平面具有以下核心组件。

  1. API 服务器
  2. Kube 控制器管理器
  3. Kube 调度器
  4. 云控制器管理器(可选)

运行单节点控制平面可能会导致所有控制平面组件出现单点故障。要拥有高度可用的 Kubernetes 控制平面,应至少有三个仲裁控制平面节点,并在所有三个节点上复制控制平面组件。

在这里插入图片描述
现在,了解跨节点部署为多个副本时每个控制平面组件的性质非常重要。因为很少有组件在部署为多个副本时使用 leader-election。

一起看一下每个控制位置组件的高可用性。

2.1、etcd

说到etcd HA架构,有两种模式。

  • 堆叠式 etcd:与控制平面节点一起部署的 etcd。
  • 外部 etcd 集群:运行专用节点的 etcd 集群。此模型具有管理良好的备份和还原选项的优点。

要具有容错能力至少应该有三个节点 etcd 集群。etcd 集群的容错能力如下表所示。

集群大小大多数容错能力
110
220
321
431
532
642
743

在生产部署方面,定期备份 etcd 至关重要。

2.2、API 服务器

API 服务器是一个无状态应用程序,主要与 etcd 集互以存储和检索数据。即API 服务器的多个实例可以跨不同的控制平面节点运行。

为确保集群 API 始终可用,应将负载均衡器放置在 API 服务器副本的前面。工作线程节点、最终用户和外部系统使用此负载均衡器端点与集群进行交互。

2.3、Kube 调度器

当运行多个 kube 调度程序实例时,它遵循 leader-election 方法。这是因为,schedler 组件涉及 pod 调度活动,并且一次只能有一个实例做出决策。因此,当运行调度程序的多个副本时,一个实例将被选为领导者,其他实例将被标记为跟随者。

这确保了始终有一个活动的计划程序,用于制定计划决策,并避免冲突和不一致。如果是领导者,则追随者将被选为领导者并接管所有日程安排决定。这样就拥有了一个具有一致调度的高可用性调度程序。

2.4、Kube 控制器管理器

Kuber 控制器管理器也遵循相同的领导者选举方法。在许多副本中,选出一个控制器管理器,领导者和其他人被标记为追随者。领导控制器负责控制集群的状态。

2.5、云控制器管理器

云控制器管理器 (CCM) 是一个 Kubernetes 组件,它运行与特定于云提供商的 API 交互的控制器,以管理负载均衡器、持久卷和路由等资源。

就像调度程序和 kube-controller 一样,CCM 也使用领导者选举来确保一次只有一个活动副本做出决策并与云提供商 API 交互。

三、工作节点的高可用性

要使工作器节点高可用性,需要运行应用程序所需的多个工作器节点。当存在 Pod 扩展活动或节点故障时,其他工作节点上应有足够的容量来安排 Pod。

在云平台上可以使用自动缩放来缩放工作器节点。因此,当存在扩展活动或资源需求时,工作节点可以扩展到所需的容量。

四、Kubernetes 集群可用性度量

假设没有计划内停机时间,Google SRE 手册中的下表显示了根据不同可用性级别计算允许的停机时间:
在这里插入图片描述

每个组织都有用于群集可用性的 SLO。如果使用的是管理服务,则服务提供商的 SLA 将与 SLO 保持一致。

  1. AWS EKS SLA
  2. GKE SLA
  3. Azure AKS SLA\

五、Kubernetes 可用性常见问题

(1)控制平面故障期间会发生什么?
即使发生控制平面故障,工作器节点上的现有工作负载也会继续为请求提供服务器服务。但是,如果出现节点故障,则不会发生 Pod 调度活动或任何类型的更新活动

(2)如果 Kubernetes 集群中的 DNS 服务失败,会发生什么情况?
如果 DNS 服务(如核心 DNS)发生故障,可能会对群集中运行的应用程序的可用性和功能产生重大影响。它可能会中断服务发现、外部访问、负载均衡、监视和日志记录以及滚动更新,从而导致应用程序故障、错误和中断。

六、总结

Kubernetes 高可用性对于确保应用程序始终可用至关重要。通过了解 Kubernetes 的核心高可用性组件和最佳实践,初学者可以构建高可用且弹性的 Kubernetes 集群。本文提供了 Kubernetes 高可用性的全面概述,是初学者入门并开始使用 Kubernetes 的宝贵资源。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/519891.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于java 的高校设备管理系统

摘要 高校是培养人才的重要场所,拥有大量的设备和器材,如实验室设备、学生宿舍设备、教学设备等,这些设备的管理对于高校事业的顺利发展起着至关重要的作用。随着高校信息化建设的不断深入,高校设备管理已逐渐成为学院日常教学环…

蓝鲸6.1 CMDB 事件推送的开源替代方案

本文来自腾讯蓝鲸智云社区用户:木讷大叔爱运维 背景 在蓝鲸社区“社区问答”帖子中发现这么一个需求: 究其原因,我在《不是CMDB筑高墙,运维需要一定的开发能力!》一文中已经介绍,在此我再简单重复下&#…

Apache Pulsar源码解析之Lookup机制

引言 在学习Pulsar一段时间后,相信大家也或多或少听说Lookup这个词,今天就一起来深入剖析下Pulsar是怎么设计的它吧 Lookup是什么 在客户端跟服务端建立TCP连接前有些信息需要提前获取,这个获取方式就是Lookup机制。所获取的信息有以下几种…

[机器学习]人工智能为小米智架保驾护航

前言 小米汽车作为小米集团进军汽车行业的新尝试,吸引了广泛的关注。其结合了小米在科技和创新方面的优势,以及对智能出行的愿景,为汽车行业注入了新的活力。虽然小米汽车工厂还处于初期阶段,但其积极采用人工智能和机器学习等前沿…

基于Pytorch+昇腾NPU部署baichuan2-7B大模型

一、模型介绍 Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。Baichuan 2 在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。 它基于 Transformer 结构,在大约1.2万亿 tokens…

docker进行jenkins接口自动化测试持续集成实战

文章目录 一、接口功能自动化测试项目源码讲解二、接口功能自动化测试运行环境配置1、下载jdk,maven,git,allure并配置对应的环境变量2、使用docker安装jenkins3、配置接口测试的运行时环境选择对应节点4、jenkins下载插件5、jenkins配置环境…

解决element-plus table组件 fixed=“right“(left)浮动后横向滚动文字穿透的问题

BUG 版本:element-plus 2.6.1 浏览器:360极速浏览器22.1 (Chromium内核) 组件:el-table组件 问题:在头部/尾部浮动加上斑马条纹后,横向滚动存在文字穿透的问题。具体如图: 白色背景行的文字&#xff0c…

【关于窗口移动求和的两种计算方法】

窗口移动计算方法 例子方法1方法2运行结果: 例子 在很多算法中都会涉及到窗口滑动,比如基于新息序列更新的自适应卡尔曼滤波器算法中便会使用到。 已知一个数列:OCV [1;2;3;4;5;6;7;8;9;10;11;12;13;14;15],定义窗口长度为5,每次…

Python自带的集成开发和学习环境IDLE 中安装工具包的pip文件修复和重置解决方法————以win 7系统下Python 3.8 32-bit为例

Python自带的集成开发和学习环境IDLE 中安装工具包的pip文件修复和重置解决方法————以win 7系统下Python 3.8 32-bit为例 目录 Python自带的集成开发和学习环境IDLE 中安装工具包的pip文件修复和重置解决方法————以win 7系统下Python 3.8 32-bit为例一、IDLE简介和特点…

软考111-上午题-【计算机网络】-URL和DNS

一、URL解析 org:各类组织结构(非盈利团队) 1-1、顶级域 顶级域名是域名的最后一个部分,即是域名最后一点之后的字母,例如:www.baidu.com这个域名中,顶级域是.com(或.COM&#xff…

2024/4/5 ACM格式练习

一、知识点: (1)行数不固定:用Scanf的err返回值判断是否读到EOF。 (2)每行数据个数不固定:一个一个读数据和它后面的字符,判断后面的字符是否是换行符。如果是就说明读完了一行数据…

重读Java设计模式: 桥接模式详解

引言 在软件开发中,经常会遇到需要在抽象与实现之间建立连接的情况。当系统需要支持多个维度的变化时,使用传统的继承方式往往会导致类爆炸和耦合度增加的问题。为了解决这一问题,我们可以使用桥接模式。桥接模式是一种结构型设计模式&#…

计算机网络—HTTP协议:深入解析与应用实践

​ 🎬慕斯主页:修仙—别有洞天 ♈️今日夜电波:ヒステリックナイトガール 1:03━━━━━━️💟──────── 5:06 🔄 ◀️ ⏸ ▶️ ☰…

vue 实现的h5 页面,如何设置页面中的 title

修改页面中的title 公共修改方式在App.vue 中: created() {document.title "测试标题"; },单个页面修改,就在单个页面编写就ok

二百二十九、离线数仓——离线数仓Hive从Kafka、MySQL到ClickHouse的完整开发流程

一、目的 为了整理离线数仓开发的全流程,算是温故知新吧 离线数仓的数据源是Kafka和MySQL数据库,Kafka存业务数据,MySQL存维度数据 采集工具是Kettle和Flume,Flume采集Kafka数据,Kettle采集MySQL数据 离线数仓是Hi…

JVM专题——垃圾回收

本文部分内容节选自Java Guide和《深入理解Java虚拟机》, Java Guide地址: https://javaguide.cn/java/jvm/jvm-garbage-collection.html 🚀 基础(上) → 🚀 基础(中) → 🚀基础(下&…

2024-04-05 问AI: 介绍一下深度学习中的Leaky ReLU函数

文心一言 Leaky ReLU(Leaky Rectified Linear Unit)函数是深度学习领域中的一种激活函数,主要用于解决ReLU(Rectified Linear Unit)函数在负值区域为零的问题。ReLU函数在输入为正时保持原样,而在输入为负…

(学习日记)2024.04.07:UCOSIII第三十五节:互斥量实验

写在前面: 由于时间的不足与学习的碎片化,写博客变得有些奢侈。 但是对于记录学习(忘了以后能快速复习)的渴望一天天变得强烈。 既然如此 不如以天为单位,以时间为顺序,仅仅将博客当做一个知识学习的目录&a…

通过 Cookie、Redis共享Session 和 Spring 拦截器技术,实现对用户登录状态的持有和清理(三)

本篇内容对应 “2.4 生成验证码” 小节 和 “4.7 优化登陆模块”小节 视频链接 1 Kaptcha介绍 Kaotcga是一个生成验证码的工具。 你的网站验证码是什么? 在我们这个牛客论坛项目,验证码分为两部分 给用户看的是图片,用户根据图片上显示的…

跨境电商独立站是什么?为什么要做独立站?

跨境电商独立站就是跨境电商自行搭建的销售网站,服务器、域名都是自主购买的,并由跨境电商独立运营与营销推广。 近些年来,各类第三方电商平台虽然流量大,但是随着进驻电商数量的增加,流量竞争也愈发激烈,…