k8s的pod和svc相互访问时网络链路解析

k8s的pod和svc相互访问时网络链路解析

  • 1. k8s环境中pod相互访问
    • 1.1. k8s中pod相互访问的整体流程
    • 1.2. k8s的相同机器的不同pod相互访问
    • 1.3. k8s的不同机器的不同pod相互访问
  • 3. k8s访问svc
    • 3.1 nat操作
    • 3.2 流量进入到后端pod
  • 4. 疑问和思考
    • 4.1 访问pod相互访问为什么不用做nat?
    • 4.2 访问svc时为什么需要做nat?
  • 5. 参考文档

在常用的k8s环境中,通常会面临同机器pod的相互访问、跨机器之间的pod访问以及通过svc访问相互,这几种模式下,k8s底层网络的访问规则不同。本文希望针对这几种场景下的流量访问链路和访问规则,从而探索k8s针对网络层面的设计逻辑。k8s层面svc访问的详细规则可以参考k8s的svc流量通过iptables和ipvs转发到pod的流程解析


1. k8s环境中pod相互访问

1.1. k8s中pod相互访问的整体流程

k8s内部pod相互之间的访问架构如下,我们使用一个相互新的网络架构,进行整体网络解析。
在这里插入图片描述

这个架构使用的cilium进行作为网络插件提供网络服务。在基于 vxlan 的 overlay 组网情况下,主机上的网络发生了以下变化:在主机的 root 命名空间,新增了如下图所示的四个虚拟网络接口

  • cilium_vxlan 主要是对数据包进行 vxlan 封装和解封装操作;
  • cilium_net 和 cilium_host 是一对 veth-pair,cilium_host 作为该节点所管理的 Cluster IP 子网的网关
  • lxc_health,用于节点之间的健康检测。

在每个主机上,可以进入 Cilium Agent,能够记录pod-host之间的网络关系,能够通过pod找到对应的机器host,并为对应的机器创建隧道列表。 比如进入主机 easyk8s1 上的 Cilium Agent,运行 cilium bpf tunnel list,可以看到

  • 其为集群中的另一台主机 easyk8s2 上的虚拟网络 10.244.1.0 创建了一个隧道
  • 同样在 easyk8s1 上也有一条这样的隧道配置。
    在这里插入图片描述

每台服务器也将为每台node、pod、svc创建相关的路由表,当相关流量到达cilium_host后,会通过进一步访问的目的地址查找和匹配的路由表,从而决定下一跳的访问流量。
在这里插入图片描述

k8s之间的pod访问就是通过veth-pair、路由表从而决定整体的转发策略。

1.2. k8s的相同机器的不同pod相互访问

以 busybox1 ping busybox2 为例

在这里插入图片描述
busybox1 的 IP 地址为 10.244.2.96/32,busybox2 的 IP 地址为 10.244.2.21/32,掩码均为 32 位。

  1. 当 busybox1 准备发送 ping 包时,数据包逐层封装,网络层 (3 层) 源 IP 为 10.244.2.96/32,目的 IP 为 10.244.2.21/32,其通过路由表(注:每个 Node 上所有的容器路由表一样)查询到下一跳为 10.244.2.35

  2. 数据链路层 (2 层) 源 MAC 地址为 0a:c5:89:f9:04:84,目的 MAC 地址因初始状态下 Pod 内的 ARP 表为空,busybox1 需发送 ARP 请求目的 MAC 地址

    [root@easyk8s1 ~]# kubectl  exec -ti busybox1 -- route -n 
    Kernel IP routing table
    Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
    0.0.0.0         10.244.2.35     0.0.0.0         UG    0      0        0 eth0
    10.244.2.35     0.0.0.0         255.255.255.255 UH    0      0        0 eth0
    [root@easyk8s1 ~]# kubectl  exec -ti busybox1 -- arp
    

    如上busybox1中的路由表,busybox1出去的流量目标地址是10.244.2.35 ,会通过eth0端口出来流量。busybox1的 eth0 网卡是一对 veth-pair 设备,另一端 ifindex 为 16 的 lxca60338c921d9 在 Node 节点 easyk8s1 上,从而busybox1的流量就会转发到easyk8s1上。lxca60338c921d9 绑定在cilium_host(类似网桥),可以根据路由表进一步决定流量的去向。

  3. lxca60338c921d9 网卡收到 ARP 请求包,内核处理 ARP 请求,发现地址就在本机,但是地址所属网卡 cilium_host 为 NOARP 状态,根据 Cilium Agent 挂载的 eBPF 程序实现,将使用接收 ARP 请求包的 lxca60338c921d9 网卡的 MAC 地址进行响应。(分别在网卡 cilium_host 和 lxca60338c921d9 抓取 MAC 报文,后者收到报文。报文中 MAC 回包的 mac 地址是 lxca60338c921d9 的 MAC 地址 e2:d8:51:8b:44:d4)

    [root@easyk8s1 ~]# ip addr show
    ...
    6: cilium_net@cilium_host: <BROADCAST,MULTICAST,NOARP,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
        link/ether d6:99:91:04:02:a5 brd ff:ff:ff:ff:ff:ff
        inet6 fe80::d499:91ff:fe04:2a5/64 scope link 
           valid_lft forever preferred_lft forever
    7: cilium_host@cilium_net: <BROADCAST,MULTICAST,NOARP,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
        link/ether 6e:5e:1e:d7:c2:07 brd ff:ff:ff:ff:ff:ff
        inet 10.244.2.35/32 scope link cilium_host
           valid_lft forever preferred_lft forever
        inet6 fe80::6c5e:1eff:fed7:c207/64 scope link 
           valid_lft forever preferred_lft forever
    
    [root@easyk8s1 ~]# tcpdump -nnn -vvv -i lxca60338c921d9 arp 
    tcpdump: listening on lxca60338c921d9, link-type EN10MB (Ethernet), capture size 262144 bytes
    15:29:03.640538 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.244.2.35 tell 10.244.2.96, length 28
    15:29:03.640654 ARP, Ethernet (len 6), IPv4 (len 4), Reply 10.244.2.35 is-at e2:d8:51:8b:44:d4, length 28
    
  4. busybox1 收到 ARP 应答后,获取到目的 MAC 地址并缓存,然后组装 ICMP REQUEST 包并发送

    [root@easyk8s1 ~]# kubectl  exec -ti busybox1 -- ip neigh
    10.244.2.35 dev eth0 lladdr e2:d8:51:8b:44:d4 used 0/0/0 probes 1 STALE
    
  5. lxca60338c921d9 网卡收到 ICMP REQUEST 报文,解封装,发现二层目的 MAC 地址是自身,继续解分装,发现三层目的 IP 地址是 10.244.2.21/32,查询路由表(所有主机的路由表 podsubnet 网段内的路由都指向 cilium_host),路由表指向cilium_host(cilium_host 是 eBPF 埋钩子的地方,eBPF 进行 ingress 方向的转发逻辑,包括 prefilter、解密、L3/L4 负载均衡、L7 Policy 等)
    在这里插入图片描述

  6. cilium_host进一步通过的Cilium Agent cilium bpf endpoint list 的相关转发规则,重新对数据包进行封装,发送给 busybox2 容器的 veth-pair 接口 lxc021c0c8b5d94

    [root@easyk8s1 ~]# kubectl exec -ti cilium-wtdbp -n kube-system -- cilium bpf endpoint list
    IP ADDRESS       LOCAL ENDPOINT INFO
    10.244.2.21:0    id=6     flags=0x0000 ifindex=18  mac=2E:5A:9A:9E:01:00 nodemac=36:33:68:68:1F:DD   
    10.244.2.96:0    id=890   flags=0x0000 ifindex=16  mac=0A:C5:89:F9:04:84 nodemac=E2:D8:51:8B:44:D4   
    10.211.55.10:0   (localhost)                                                                         
    10.211.55.7:0    (localhost)                                                                         
    10.244.2.35:0    (localhost)                                                                         
    10.244.2.172:0   id=109   flags=0x0000 ifindex=10  mac=22:4F:87:F3:0C:94 nodemac=C6:F5:CD:16:6D:E2
    
    
  7. busybox2 收到 ICMP REQUEST 包并处理,回应 ICMP REPLY 包,回包过程与上面过程相反,此处不再赘述

1.3. k8s的不同机器的不同pod相互访问

在这里插入图片描述
整体流程跟相同节点的不同pod之间访问类似,前面5个步骤相同。从第6步 开始,有差异

  1. cilium_host根据隧道转发规则去往 10.244.1.0/24 网段的流量将发送给 10.211.55.8,也就是 easyk8s2 节点。于是将 ICMP REQUEST 包重新封装发送给 easyk8s1 的 cilium_vxlan 网卡。cilium_vxlan 网卡会进行 VXLAN 封装(Cilium 默认使用 UDP 8472 端口),通过 underlay 层路由,由物理网卡 eth0 发送给 10.211.55.8,即 easyk8s2 节点

    [root@easyk8s1 ~]# kubectl exec -ti cilium-wtdbp -n kube-system -- cilium bpf tunnel list
    TUNNEL         VALUE
    10.244.1.0:0   10.211.55.8:0
    
  2. asyk8s2 节点的 eth0 网卡收到报文以后,发现是 VXLAN 报文,便发给 cilium_vxlan 进行解封装,并根据内部目的地址路由。
    在这里插入图片描述

  3. 路由表同样指向 easyk8s2 节点的 cilium_host 网卡,eBPF 进行 ingress 方向的转发逻辑(包括 prefilter、解密、L3/L4 负载均衡、L7 Policy 等)。进入 easyk8s2 节点的 Cilium Agent 通过 cilium bpf endpoint list 可以查询其转发规则。根据规则将数据包发送给 busybox3 容器的 veth-pair 接口 lxcdf85c99387b7

    [root@easyk8s1 ~]# kubectl exec -ti cilium-l2wpw -n kube-system -- cilium bpf endpoint list            
    IP ADDRESS       LOCAL ENDPOINT INFO
    10.244.1.2:0     (localhost)                                                                         
    10.211.55.8:0    (localhost)                                                                         
    10.244.1.253:0   id=959   flags=0x0000 ifindex=10  mac=EA:1F:11:A8:CF:0D nodemac=DE:44:26:5F:50:CC   
    10.244.1.223:0   id=1419  flags=0x0000 ifindex=22  mac=C2:11:E1:7D:27:30 nodemac=92:C7:C1:10:8D:7C   
    10.244.1.152:0   id=3207  flags=0x0000 ifindex=20  mac=62:1B:E4:C9:4D:44 nodemac=EA:60:B5:7D:42:32
    
  4. busybox3 收到 ICMP REQUEST 包并处理,回应 ICMP REPLY 包,回包过程与上面过程相反,此处不再赘述

从如上流程可以看出,pod之间的相互访问主要依赖 eth-pair、cilium_host(对应其他网络插件的网桥)、以及路由表,进行路由转发。并不需要针对pod进行nat操作,因此也不涉及iptables等相关规则。

3. k8s访问svc

3.1 nat操作

客户端访问(k8s的pod或者node)访问svc时,虽然实际上是访问svc后端的pod(实际的服务提供方),但是由于svc的存在,使得能够完全屏蔽svc后端的相关配置。对于客户端而言,并不感知svc后端的相关服务情况。

如果客户端正好是k8s的pod或者node时,当流量从node的网卡出包时,会被iptables进行nat操作,将客户端ip进行snat成node的ip。而当流量从svc返回客户端时,会进行逆向转换将node进行dnat解析成客户端ip。

该nat操作时通过iptables KUBE-MARK-MASQ规则实现的,具体的实现方式可以参考 k8s的svc流量通过iptables和ipvs转发到pod的流程解析

每台k8s服务器都会配置KUBE-MARK-MASQ相关规则,因此当pod流量出服务器网卡时,就会自动完成转换。
在这里插入图片描述

3.2 流量进入到后端pod

svc能够通过负载均衡配置,将相关的流量分权重,转换到后端pod,具体可以参考 k8s的svc流量通过iptables和ipvs转发到pod的流程解析

当访问流量完成nat,进入到目标pod后,相关的流程跟pod访问流程类似,不在继续复述

4. 疑问和思考

4.1 访问pod相互访问为什么不用做nat?

不需要进行nat。

因为pod到pod时相同的网段,每个pod都被分配ip,并且在k8s环境中,每个node有对应的pod cidrs,因此针对每个pod而言,能够清晰的构建每个podip对应的转发路由表,因此不需要进行nat。网访问客户端的pod出流量进入到网桥(cilium_host)后,能够通过本地的路由表查找到目标pod所在的下一条地址。只需要做简单封装后,就能够进行流量之间的相互访问。

4.2 访问svc时为什么需要做nat?

在 Kubernetes 中,Service 是一种抽象层,用于将一组 Pod 暴露给其他 Pod 或外部网络。当一个外部客户端尝试访问 Service 时,请求首先到达集群的节点。这时候,由于 Service 的 IP 地址是虚拟的,它不属于任何节点的 IP 地址范围,因此node节点无法直接识别该请求应该转发给哪个具体的 Pod

为了解决这个问题,Kubernetes 使用了网络地址转换(Network Address Translation,NAT)技术。当一个请求到达节点时,节点会使用 NAT 将请求的目标 IP 地址转换为 Service 对应 Pod 的 IP 地址,然后将请求转发给该 Pod。

通过使用 NAT,Kubernetes 可以将 Service 的虚拟 IP 地址与实际运行的 Pod 关联起来,从而实现请求的转发和负载均衡。同时,这也使得 Service 的 IP 地址可以根据需要动态变化,而不会影响到外部客户端的访问。

5. 参考文档

暂无

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/452181.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

03.JavaScript中的数组

数组 知道什么是数组及其应用的场景&#xff0c;掌握数组声明及访问的语法。 数组是什么&#xff1f; 数组&#xff1a;(Array)是一种可以按顺序保存数据的数据类型 **使用场景&#xff1a;**如果有多个数据可以用数组保存起来&#xff0c;然后放到一个变量中&#xff0c;管理…

前端基础篇-深入了解用 HTML 与 CSS 实现正文排版、正文布局

&#x1f525;博客主页&#xff1a; 【小扳_-CSDN博客】 ❤感谢大家点赞&#x1f44d;收藏⭐评论✍ 文章目录 1.0 HTML 与 CSS 概述 2.0 HTML - 正文排版 2.1 视频标签 2.2 音频标签 2.3 段落标签 2.4 文本加粗标签 2.5 换行标签 2.6 CSS 样式 2.7 实现正文排版 3.0 HTML - …

2024年A特种设备相关管理(锅炉压力容器压力管道)证考试题库及A特种设备相关管理(锅炉压力容器压力管道)试题解析

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2024年A特种设备相关管理&#xff08;锅炉压力容器压力管道&#xff09;证考试题库及A特种设备相关管理&#xff08;锅炉压力容器压力管道&#xff09;试题解析是安全生产模拟考试一点通结合&#xff08;安监局&#…

Android中ANR机制

Android中的ANR分为两种&#xff0c;前台ANR和后台ANR。 前台ANR&#xff0c;是指ANR时对用户可感知&#xff0c;比如拥有当前前台可见的activity的进程&#xff0c;或者拥有前台通知的fg-service的进程&#xff0c;这些是用户可感知的场景。前台ANR&#xff0c;会出现一个系统…

linux命令深入研究——vim

vim可以对指定文件内容进行编辑&#xff0c;同时其操作还有一些快捷方式&#xff0c;常用的有如下部分

TypeScript编译选项

编译单个文件&#xff1a;终端 tsc 文件名 自动编译单个文件&#xff1a;终端 tsc 文件名 -w 编译整个项目&#xff1a;tsc 前提是得有ts的配置文件tsconfig.json 自动编译整个项目&#xff1a;tsc --w tsconfig.json默认文件内容&#xff1a; tsconfig.json是ts编译器的配…

<商务世界>《第10课 招投标的多种形式》

1 公开招标 1.1 什么是公开招标 《招投标法》第十条第二款规定:“公开招标是指招标人以招标公告的方式邀请不特定的法人或者其他组织投标。”也就是说,所有公开招标的项目都必须在公共平台发布招标信息,符合条件的供应商均可以参与投标。 公开招标的采购方式,因为投标人较…

面向对象【static关键字】

文章目录 Java中的static关键字1. 静态变量2. 静态方法的特点3. 静态块4. 静态导入5. 单例模式中的应用 Java中的static关键字 在Java中&#xff0c;static是一个关键字&#xff0c;用于定义类级别的成员&#xff0c;这些成员与类的实例无关。static成员属于类而不是类的实例&…

刷题日记——01字符串、非素数个数(厦门大学机试)

题目1——01字符串 分析 经过拆解找规律&#xff0c;发现是两个斐波那契 那么代码就好写了呀 #include <stdio.h>unsigned long long f(int n){if(n0||n1){return n;}return (f(n-1)f(n-2))%2333333; }int main(){int n;scanf("%d",&n);printf("%…

sqllab第六关通关笔记

知识点&#xff1a; 报错注入回顾原始语句测试截取函数 mid(字符串&#xff0c;起始位置&#xff0c;长度)substr(字符串&#xff0c;起始位置&#xff0c;长度)left(字符串&#xff0c;长度)right(字符串&#xff0c;长度)加入截取控制的错误注入payload payload:id1"%2…

深度学习(十一):YOLOv9之最新的目标检测器解读

YOLOv9 1.YOLOv9:物体检测技术的飞跃发展1.1 YOLOv9 简介1.2YOLOv9 的核心创新1.2.1信息瓶颈:神经网络在抽取相关性时的理论边界1.2.2可逆函数:保留完整的信息流1.2.3对轻型模型的影响&#xff1a;解决信息丢失1.2.4可编程梯度信息 (PGI)&#xff1a;解决信息瓶颈1.2.5通用高效…

掘根宝典之C++迭代器简介

在C中&#xff0c;容器是一种用于存储和管理数据的数据结构。C标准库提供了多种容器&#xff0c;每种容器都有其独特的特点和适用场景。 我们知道啊&#xff0c;我们可以通过下标运算符来对容器内的元素进行访问&#xff0c;但是只有少数几种容器才同时支持下标运算符&#xf…

Leetcode 3.12

leetcode hot 100 链表1.两两交换链表中的节点2.随机链表的复制3.排序链表 链表 1.两两交换链表中的节点 两两交换链表中的节点 1.必须要设置一个dummy (temp) 结点2.保存第二个节点3.先让第一个节点指向第三个节点4.再让第二个节点指向第一个节点5.最后让dummy指向第二个节点…

2024 年 2 月 NFT 行业动态:加密货币飙升,NFT 市场调整

作者&#xff1a;stellafootprint.network 数据来源&#xff1a;NFT 研究页面 - Footprint Analytics 2024 年 2 月&#xff0c;加密货币与 NFT 市场显现出了复杂性。该月&#xff0c;NFT 领域的交易量达到 12 亿美元&#xff0c;环比下降了 3.7%。值得关注的是&#xff0c;包…

AI智能分析网关V4将HTTP消息推送至安防监控视频汇聚EasyCVR平台的操作步骤

TSINGSEE青犀视频智能分析网关V4内置了近40种AI算法模型&#xff0c;支持对接入的视频图像进行人、车、物、行为等实时检测分析&#xff0c;上报识别结果&#xff0c;并能进行语音告警播放。硬件管理平台支持RTSP、GB28181协议、以及厂家私有协议接入&#xff0c;可兼容市面上常…

从根到叶:深入了解Map和Set

窗间映出一片高远的天空&#xff0c; 向晚的天际宁静而又清明。 我孤独的心灵在幸福地哭泣&#xff0c; 它在为天空如此美好而高兴。 恬静的晚霞一片火红&#xff0c; 晚霞灼烧着我的热情。 此刻的世界没有别人&#xff0c; 只有上帝&#xff0c;我和天空。 ——&#x…

利用“定时执行专家”软件的25种任务与12种触发器,提升IT系统管理自动化水平

在IT系统管理中&#xff0c;自动化是提高工作效率、减少人为错误的关键。而《定时执行专家》这款软件&#xff0c;以其强大的功能、易用性和毫秒级的执行精度&#xff0c;成为了IT系统管理员的得力助手。今天&#xff0c;我们就来探讨一下如何利用这款软件的25种任务类型和12种…

【AI绘画】AI绘画免费网站推荐

人工智能&#xff08;Artificial Intelligence&#xff0c;简称AI&#xff09;是指一种模拟人类智能的技术。它是通过计算机系统来模拟人的认知、学习和推理能力&#xff0c;以实现类似于人类智能的行为和决策。人工智能技术包含多个方面&#xff0c;包括机器学习、深度学习、自…

unity3d Animal Controller的动物组件使用明天继续

控制器介绍 动物脚本负责控制动物的所有运动逻辑.它管理所有的动画师和刚体参数,以及所有的状态和模式,动物可以做。 动物控制器 是一个动画框架控制器,根动或到位,为任何生物或人形。它利用刚体与物理世界的互动和动画师的玩动画。 States States 是不互相重叠的动画。例如…

Android Kotlin知识汇总(三)Kotlin 协程

Kotlin的重要优势及特点之——结构化并发 Kotlin 协程让异步代码像阻塞代码一样易于使用。协程可大幅简化后台任务管理&#xff0c;例如网络调用、本地数据访问等任务的管理。本主题介绍如何使用 Kotlin 协程解决以下问题&#xff0c;从而让您能够编写出更清晰、更简洁的应用代…