深入 K8s 网络原理(一)- Flannel VXLAN 模式分析

1. 概述

这周集中聊下 K8s 的集群网络原理,我初步考虑分成3个方向:

  1. Pod-to-Pod 通信(同节点 or 跨节点),以 Flannel VXLAN 模式为例;

  1. Pod/External-to-Service 通信,以 iptables 实现为例;

  1. Ingress 原理,以 NGINX Ingress Controller 实现为例;

  1. 其他:(到时候看心情)Flannel host-gw 模式,Calico,……

今天先介绍下 Flannel 实现 Pod 跨节点通信的原理。

2. TL;DR

我知道你们着急,这样吧,先看图:

一图胜千言,下文都不知道咋展开了。哎。

此外,网络这块涉及的概念有点多,逐个细讲感觉不合适。这样,此处默认大家都熟悉 TCP/IP 协议族,下文该偷懒的地方我就偷懒。

3. Pod 间通信问题的由来

容器化以前,当需要将多个应用灵活部署到一些服务器上时,就不可避免地会遇到端口冲突问题,而协调这种冲突是很繁琐的。K8s 体系的处理方式是将每个 Pod 丢到单独的 netns 里,也就是 ip 和 port 都彼此隔离,这样就不需要考虑端口冲突了。

不过这套网络架构应该如何实现呢?整体来由需要解决下面这2个问题(结合上图的 Pod1234):

  1. Pod1 如何和 Pod2 通信(同节点)

  1. Pod1 如何和 Pod3 通信(跨节点)

K8s 的网络模型要求每个 Pod 都有一个唯一的 IP 地址,即使这些 Pod 分布在不同的节点上。为了实现这个网络模型,CoreOS 团队发起了 CNI 项目(后来 CNI 进了 CNCF 孵化)。CNI (Container Network Interface) 定义了实现容器之间网络连通性和释放网络资源等相关操作的接口规范,这套接口进而由具体的 CNI 插件的去实现,CNI 插件负责为 Pod 分配 IP 地址,并处理跨节点的网络路由等具体的工作。

行,接下来具体跟下 CNI 的 Flannel 实现是怎么工作的。

4. 测试环境准备

我在本地通过 Minikube 启动一个3节点的 K8s 集群,3个节点的 IP 和 hostname 分别是:

  • 192.168.49.2 minikube

  • 192.168.49.3 minikube-m02

  • 192.168.49.4 minikube-m03

此外在这个集群内创建了几个 Pod,信息如下(主要留一下 Pod 的 IP 以及所在的节点):

  • kgpoowide

NAME                                READY   STATUS    RESTARTS   AGE    IP           NODE
nginx-deployment-7fbb8f4b4c-89bds   1/1     Running   0          20h    10.244.2.4   minikube-m03
nginx-deployment-7fbb8f4b4c-d29zm   1/1     Running   0          20h    10.244.1.5   minikube-m02
nginx-deployment-7fbb8f4b4c-k5vh4   1/1     Running   0          102s   10.244.2.5   minikube-m03
nginx-deployment-7fbb8f4b4c-m4scr   1/1     Running   0          3s     10.244.1.6   minikube-m02

Pod 用的镜像是带有 ip 等命令的 NGINX,Dockerfile 如下:

FROM nginx:latest

RUN apt-get update && \
    apt-get install -y iproute2 && \
    rm -rf /var/lib/apt/lists/*

相应的 Deployment YAML 如下:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deployment
spec:
  replicas: 4
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        image: nginx:test1
        ports:
        - containerPort: 80

5. 从 veth 设备聊起

不得不先提一句 veth(Virtual Ethernet Device)。veth 是一种在 Linux 中用于网络虚拟化的技术,常用于容器网络中。veth pair 可以看作是一对虚拟网络接口设备,它们像管道的两端一样相连。在一个 veth 对中,数据从一端发送出去,可以在另一端被接收到,就像它们是通过一根以太网线连接的两个独立设备一样。

在容器网络中,veth 对经常被用来连接容器和主机。具体来说,veth 对的一个端点(通常称为 veth 接口)位于容器的网络命名空间内,好像是容器的网络接口卡,而另一个端点位于主机的全局网络命名空间内,通常会连接到一个 Linux 桥接或者其他网络设备。

这种设置允许容器内的网络流量通过 veth 接口流出容器,进入主机的网络命名空间,并通过主机的网络路由和策略进行进一步的处理或转发。

如图所示,Pod 内的 eth0 和 host 上的 veth1 其实就是一个 veth pair,Pod 和 host 在2个不同的网络命名空间内,通过 veth 设备实现了2个 netns 之间的网络互通。

而 veth-n 又会桥接到 cni0 这个网桥上,进而实现流量在主机上的路由过程。接下来我们具体看下 Pod 内外的网络设备和路由规则等。

6. 网桥 cni0

接着来看网桥 cni0。

6.1 在 Pod 内看网卡信息

Pod 10.244.1.6 内的网卡信息如下:

1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
2: tunl0@NONE: <NOARP> mtu 1480 qdisc noop state DOWN group default qlen 1000
    link/ipip 0.0.0.0 brd 0.0.0.0
3: ip6tnl0@NONE: <NOARP> mtu 1452 qdisc noop state DOWN group default qlen 1000
    link/tunnel6 :: brd :: permaddr 1622:c323:de90::
4: eth0@if11: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 65485 qdisc noqueue state UP group default
    link/ether 4a:2c:84:bb:56:5e brd ff:ff:ff:ff:ff:ff link-netnsid 0
    inet 10.244.1.6/24 brd 10.244.1.255 scope global eth0
       valid_lft forever preferred_lft forever

可以看到 eth0@f11 设备,对应 IP 10.244.1.6/24,这里看着和一个普通的 vm 没有大差别。此外留一下这里的 if11,这个 11 对应这个 veth pair 在主机上的另外一端的序号。

6.2 在 host 上看网卡信息

节点 minikube-m02 上的网卡信息如下:

1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
5: flannel.1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 65485 qdisc noqueue state UNKNOWN group default
    link/ether 62:07:aa:05:13:c4 brd ff:ff:ff:ff:ff:ff
    inet 10.244.1.0/32 scope global flannel.1
       valid_lft forever preferred_lft forever
6: cni0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 65485 qdisc noqueue state UP group default qlen 1000
    link/ether de:07:f7:20:e0:70 brd ff:ff:ff:ff:ff:ff
    inet 10.244.1.1/24 brd 10.244.1.255 scope global cni0
       valid_lft forever preferred_lft forever
7: vetha7eec1e2@if4: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 65485 qdisc noqueue master cni0 state UP group default
    link/ether da:ab:17:55:be:50 brd ff:ff:ff:ff:ff:ff link-netnsid 1
10: vethc9667243@if4: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 65485 qdisc noqueue master cni0 state UP group default
    link/ether ce:dd:d3:ec:5e:d3 brd ff:ff:ff:ff:ff:ff link-netnsid 2
11: vethd26e8b95@if4: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 65485 qdisc noqueue master cni0 state UP group default
    link/ether b2:64:95:13:2a:de brd ff:ff:ff:ff:ff:ff link-netnsid 3
24: eth0@if25: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 65535 qdisc noqueue state UP group default
    link/ether 02:42:c0:a8:31:03 brd ff:ff:ff:ff:ff:ff link-netnsid 0
    inet 192.168.49.3/24 brd 192.168.49.255 scope global eth0
       valid_lft forever preferred_lft forever

前面 Pod 内看到的 eth0@if11 对应这里的11号 vethd26e8b95@if4。别管这里的 if4,如果你是在 vm 里直接跑 Pod 就看不到 ifn 了。我这里因为用了 Docker Desktop 跑 K8s,所以 K8s 所在的 nodes 本质也是容器,这里多套了一层网络嵌套而已。

先看下 cni0:

  • ip link show master cni0

7: vetha7eec1e2@if4: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 65485 qdisc noqueue master cni0 state UP mode DEFAULT group default
    link/ether da:ab:17:55:be:50 brd ff:ff:ff:ff:ff:ff link-netnsid 1
10: vethc9667243@if4: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 65485 qdisc noqueue master cni0 state UP mode DEFAULT group default
    link/ether ce:dd:d3:ec:5e:d3 brd ff:ff:ff:ff:ff:ff link-netnsid 2
11: vethd26e8b95@if4: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 65485 qdisc noqueue master cni0 state UP mode DEFAULT group default
    link/ether b2:64:95:13:2a:de brd ff:ff:ff:ff:ff:ff link-netnsid 3

可以看到前面提到的 veth vethd26e8b95 被桥接到了 cni0 上。

继续看 host 的路由表:

default via 192.168.49.1 dev eth0
10.244.0.0/24 via 10.244.0.0 dev flannel.1 onlink
10.244.1.0/24 dev cni0 proto kernel scope link src 10.244.1.1
10.244.2.0/24 via 10.244.2.0 dev flannel.1 onlink
172.17.0.0/16 dev docker0 proto kernel scope link src 172.17.0.1 linkdown
192.168.49.0/24 dev eth0 proto kernel scope link src 192.168.49.3

留意这里的 10.244.1.0/24 dev cni0 proto kernel scope link src 10.244.1.1

cni0 的信息是:

6: cni0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 65485 qdisc noqueue state UP group default qlen 1000
    link/ether de:07:f7:20:e0:70 brd ff:ff:ff:ff:ff:ff
    inet 10.244.1.1/24 brd 10.244.1.255 scope global cni0
       valid_lft forever preferred_lft forever

结合起来看,也就是所有发往 10.244.1.0/24 段的数据包都会通过 cni0 传输,10.244.1.0/24 也就是 Flannel 分配给当前节点的 Pod IP 段。

7. VTEP flannel.1

上述路由表中还有这样2条记录:

10.244.0.0/24 via 10.244.0.0 dev flannel.1 onlink
10.244.2.0/24 via 10.244.2.0 dev flannel.1 onlink

当前集群是3个节点,也就是目的地址是当前节点内的 pods IP 段 10.244.1.0/24,流量交给 cni0 处理;而其他节点的 pods IP 段 10.244.0.0/24 和 10.244.2.0/24 则交给 flannel.1 来处理。

flannel.1 是 VXLAN 网络的 VTEP 设备。简单介绍下 VXLAN 和 VTEP:

VXLAN (Virtual Extensible LAN) 是一种覆盖网络技术,允许在现有的物理网络基础设施之上创建大量虚拟化的局域网(LAN)。它主要用于解决传统 VLAN 技术的一些限制,如 VLAN ID 数量限制(只有4096个)。VXLAN 可以支持高达1600万个虚拟网络,极大地扩展了网络的规模和灵活性。

VXLAN 相关的一些概念与原理:

  • 封装与隧道技术:VXLAN 通过封装原始的以太网帧(Layer 2)到 UDP 数据包(Layer 3)中来工作。这意味着它可以跨越不同的网络和子网,实现跨网络边界的通信。

  • VXLAN 网络标识符 (VNI):每个 VXLAN 网络都有一个唯一的标识符,称为 VNI(VXLAN Network Identifier),它提供了地址隔离,确保各个 VXLAN 网络之间的数据包不会互相干扰。

  • VTEP(VXLAN Tunnel Endpoint):VTEP 是 VXLAN 架构中的端点设备,负责封装和解封装数据包。每个通过 VXLAN 通信的网络设备都有一个或多个 VTEP。当数据包从虚拟网络出发时,VTEP 会捕获这些数据包,将它们封装在 VXLAN 格式中(即加入 VNI 和 UDP 头),然后通过物理网络发送。当 VXLAN 数据包到达目的地的 VTEP 时,该 VTEP 将对数据包进行解封装,移除 VXLAN 头部,然后将原始的以太网帧转发到目标虚拟网络中。VTEP 通常部署在数据中心的交换机(物理或虚拟)上,但也可以部署在其他网络设备或服务器上。在容器化环境(如 Kubernetes 使用 Flannel 等 CNI)中,VTEP 可以作为软件组件运行,处理容器或 Pod 之间的 VXLAN 通信。

所以当数据包到达 flannel.1 的时候,就开始了 VXLAN 封包(MAC in UDP)过程,一个以太网帧被依次加上了 VXLAN 头(VNI 信息)、UDP 头、外部 IP 头和 MAC 头等。外部 IP 头里包含了 VXLAN 隧道的源地址和目的地址(VTEP 地址),外部 MAC 头则包含了以太网帧到达下一跳所需的 MAC 地址。

8. 最后看下 Flannel 的配置

在 minikube 环境中,Flannel 会被默认部署到 kube-flannel namespace 下。在这个 namespace 里有一个 ConfigMap 叫做 kube-flannel-cfg,里面包含这样2个配置文件:

  • cni-conf.json

{
    "name": "cbr0",
    "cniVersion": "0.3.1",
    "plugins": [
    {
        "type": "flannel",
        "delegate": {
        "hairpinMode": true,
        "isDefaultGateway": true
        }
    },
    {
        "type": "portmap",
        "capabilities": {
        "portMappings": true
        }
    }
    ]
}

  • net-conf.json

{
    "Network": "10.244.0.0/16",
    "Backend": {
    "Type": "vxlan"
    }
}

如果需要修改网络模式或者 pods 网段,就可以在 net-conf.json 中灵活调整。早几年用 Flannel 的时候,我就习惯将 10.244.0.0/16 改成 10.100.0.0/16。此外 vxlan 改成 host-gw 可以提高网络传输性能,如果你的集群规模不是大几百好几千个节点,也可以考虑用 host-gw 模式。

9. 总结

从来不总结,下班。

算了,补张图吧,前文提到的 Pod1 到 Pod2/Pod3 的流量怎么走:

文章转载自:胡说云原生

原文链接:https://www.cnblogs.com/daniel-hutao/p/17914378.html

体验地址: 引迈 - JNPF快速开发平台_低代码开发平台_零代码开发平台_流程设计器_表单引擎_工作流引擎_软件架构

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/271951.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

找不到vcruntime140_1.dll要怎么解决?4种方法修复vcruntime140_1.dll

遇到"找不到vcruntime140_1.dll"的错误提示&#xff0c;表明我们面临的是一个dll文件缺失的常见问题。要解决这一困扰&#xff0c;首先需要确认错误信息中是否包含“.dll”扩展名。若有&#xff0c;这几乎无疑表明了是某个dll文件不在其预期的位置。那么&#xff0c;…

treeview数据的保存和读取(以表格方式保存)

一个简单的treeivew&#xff0c;以表格方式保存比较简单&#xff0c;遍历所有节点&#xff0c;记录parentNode、node、data即可 parentiddataid002xx2001005xx5000003xx3001006xx6002007xx7001000xx0001001xx1-1004xx4007 如何将表格转为tree数据&#xff0c;代码如下&#xf…

centos7 安装最新版jenkins; 安装jdk17 jenkins; 2024安装最新版jenkins; jenkins部署服务器启动失败

注意&#xff1a; java, maven配置&#xff0c;不再赘述&#xff0c;主要解决&#xff1a;配置端口&#xff0c;启动失败&#xff0c;问题 提供一个jdk下载网站&#xff1a; https://www.injdk.cn/ /etc/profile配置&#xff1a; MAVEN_HOME/home/maven export PATH$MAVEN_HO…

设置视图的对齐方式

对齐方式 在XML文件中通过属性android:layout_gravity可以指定当前视图的对齐方向&#xff0c;当属性值为top时表示视图朝上对齐&#xff0c;为bottom时表示视图朝下对齐&#xff0c;为left时表示视图靠左对齐&#xff0c;为right时表示视图靠右对齐。如果希望视图既朝上又靠左…

分页合理化是什么?

一、前言 只要是干过后台系统的同学应该都做过分页查询吧&#xff0c;前端发送带有页码&#xff08;pageNum&#xff09;和每页显示数量&#xff08;pageSize&#xff09;的请求&#xff0c;后端根据这些参数来提取并返回相应的数据集。在SpringBoot框架中&#xff0c;经常会使…

docker安装入门及redis,minio,rabbitmq应用安装

部分笔记来自黑马课堂&#xff1a;【黑马程序员Docker快速入门到项目部署&#xff0c;MySQL部署Nginx部署docker自定义镜像DockerCompose项目实战一套搞定-哔哩哔哩】 https://b23.tv/niWEhEF 一、什么是docker&#xff1a; 快速构建、运行、管理应用的工具。--帮助我们快速部…

HarmonyOS应用抓包实战

Charles抓包原理 Charles是一个HTTP代理服务器,HTTP监视器,反转代理服务器&#xff0c;当浏览器连接Charles的代理访问互联网时&#xff0c;Charles可以监控浏览器发送和接收的所有数据。 在开发OpenHarmony/HarmonyOS应用开发时&#xff0c;我们使用的是ohos/axios来进行网络…

VSCode注释

一、设置 1. 安装 “KoroFileHeader” 插件 2. 编辑 setting.json 文件 在设置页面中&#xff0c;使用搜索框输入 “fileheader”&#xff0c;然后点击 “在 setting.json 中编辑”。 3. 添加设置项到 setting.json // 函数 "fileheader.cursorMode": {"de…

【六】【C语言\动态规划】买卖股票的最佳时机含手续费、买卖股票的最佳时机 III、买卖股票的最佳时机 IV,三道题目深度解析

动态规划 动态规划就像是解决问题的一种策略&#xff0c;它可以帮助我们更高效地找到问题的解决方案。这个策略的核心思想就是将问题分解为一系列的小问题&#xff0c;并将每个小问题的解保存起来。这样&#xff0c;当我们需要解决原始问题的时候&#xff0c;我们就可以直接利…

怎么快速采集京东、淘宝天猫、1688、拼多多等百家电商产品图片和视频

作为新时代电商&#xff0c;主图和视频素材尤为关键&#xff0c;有好的主图才能更加的吸引客户点击&#xff0c;促进成交量。但是现在很多商家直接制作的主图都很难有预期效果&#xff0c;自己拍摄的图片暗沉&#xff0c;没有光鲜亮丽的突出性。所以现在很多人都是在采集同类商…

Unity中Shader裁剪空间推导(正交相机到裁剪空间的转化矩阵)

文章目录 前言一、正交相机 转化到 裁剪空间 干了什么1、正交相机裁剪的范围主要是这个方盒子2、裁剪了之后&#xff0c;需要把裁剪范围内的坐标值化到[-1,1]之间&#xff0c;这就是我们的裁剪空间。3、在Unity中&#xff0c;设置相机为正交相机4、在这里设置相机的近裁剪面和远…

Python 雨花 - 前言

众多技术教程的个人网站 https://wukongnotnull.com/ 目录 ⛳️ 教程介绍&#x1f3af; 前置要求⚽️ 学习交流群&#x1f9ed; 教学文档配套视频&#x1f94e; 一对一 VIP答疑辅导&#x1f4a1; 参考文献 ⛳️ 教程介绍 Python 入门教程&#xff0c;通俗易懂&#xff0c;快速…

手滑误删备忘录?这样做手滑误删也能恢复

在这个快节奏的时代&#xff0c;备忘录几乎成了我日常生活的救命稻草。匆忙间&#xff0c;我时常依赖它记录那些一闪而过的灵感或是重要的待办事项。但你有没有过这样的经历&#xff1f;在滑动屏幕的一瞬间&#xff0c;一个不小心&#xff0c;重要的备忘录就这么消失了&#xf…

springboot+vue项目如何在linux上部署

在linux上部署项目&#xff0c;是我们实训项目作业的最后一步&#xff0c;此时我们的项目编码测试已经完成&#xff0c;接下来就需要在服务器上部署上线&#xff0c;那么如何部署上线&#xff0c;接下来我会在虚拟机上的CentOS7系统上实现部署&#xff0c; 一.下载JDK 因为我…

如何搭建一个高效的Python开发环境

“工欲善其事&#xff0c;必先利其器”&#xff0c;这里我们来搭建一套高效的 Python 开发环境&#xff0c;为后续的数据分析做准备。 关于高效作业&#xff0c;对于需要编写 Python 代码进行数据分析的工作而言&#xff0c;主要涉及两个方面。 1. 一款具备强大的自动完成和错…

c语言:计算阶乘的和|练习题

一、题目 输入一个数n&#xff0c;计算1&#xff01;2&#xff01;……n&#xff01;的和 如图&#xff1a; 二、思路分析 设置两个函数 1、一个函数求阶乘 2、一个函数求多个数相加的总和 3、把求阶乘的函数&#xff0c;嵌套在求相加总和的函数里面 三、代码截图【带注释】 四…

highcharts的甘特图设置滚动时表头固定,让其他内容跟随滚动

效果图&#xff1a;最左侧的分类列是跟随甘特图滚动的&#xff0c;因为这一列如果需要自定义&#xff0c;比如表格的话可能会存在行合并的情况&#xff0c;这个时候甘特图是没有办法做的&#xff0c;然后甘特图的表头又需要做滚动时固定&#xff0c;所以设置了甘特图滚动时&…

【代码混淆】react-native 代码混淆

​ 使用react native开发app&#xff0c;实现代码混淆的操作。 无论是加密还是运行时虚拟机&#xff0c;最后都可以通过执行时调试把代码反向生成出来原来的代码&#xff0c;虽然能抵御低端的黑客攻击&#xff0c;但是对高端黑客却形同虚设。 代码混淆是通过修改源代码结构和变…

【习题】运行Hello World工程

判断题 1. DevEco Studio是开发HarmonyOS应用的一站式集成开发环境。 正确(True)错误(False) 正确(True) 2. main_pages.json存放页面page路径配置信息。 正确(True)错误(False) 正确(True) 单选题 1. 在stage模型中&#xff0c;下列配置文件属于AppScope文件夹的是&am…

视频专访 | 每日互动刘宇:AI不止GC,更有TA

当前&#xff0c;“百模大战”已进入拼落地、拼应用的下半场&#xff0c;给千行百业带来了降本增效的巨大机遇。聚焦到品牌营销领域&#xff0c;大模型给行业带来了哪些改变&#xff1f;企业如何利用大模型优化数字化营销手段、提升数字化营销效果&#xff0c;最终驱动品牌实现…