k8s AIOps

请添加图片描述

主要介绍下k8sgpt
官站
github

介绍

k8sgpt 是一个用于扫描Kubernetes集群、诊断和分级问题的工具。它以简单的英语呈现问题，并将站点可靠性工程（SRE）的经验编码到其分析器中。通过AI丰富问题的解释，k8sgpt帮助提取最相关的信息。它支持与多个AI服务提供商的开箱即用集成，包括OpenAI、Azure、Cohere、Amazon Bedrock、Google Gemini以及本地模型. 这意味着您可以根据自己的需求选择不同的AI服务提供商。

k8sgpt内置了如下的分析器：
podAnalyzer
pvcAnalyzer
rsAnalyzer
serviceAnalyzer
eventAnalyzer
ingressAnalyzer
statefulSetAnalyzer
deploymentAnalyzer
cronJobAnalyzer
nodeAnalyzer
mutatingWebhookAnalyzer
validatingWebhookAnalyzer

特性

核心分析器：
- K8sGPT 的核心是基于自然语言处理（NLP）和机器学习（ML）的智能分析器。
- 当工程师输入一个简单的英文句子描述问题时，K8sGPT会将其转化为对集群状态的描述。
- 然后，它利用 AI 算法对集群状态进行深度分析，提取最相关的信息，并通过自然语言生成回复。
应用场景：
- K8sGPT 适用于多种场景，例如：
  - 集群状态监控：通过输入简单的英文句子，工程师可以快速了解集群的整体状态，包括 CPU、内存、网络等资源的使用情况。
  - 故障排查：当集群出现故障时，工程师可以输入相关的英文句子描述问题，K8sGPT会迅速分析并给出可能的故障原因和解决方案。
  - 性能优化：工程师可以通过输入有关性能问题的英文句子，让 K8sGPT 分析集群的性能瓶颈和优化建议。
  - 安全审计：K8sGPT 可以检测集群的安全漏洞和风险，为安全审计提供有力的支持。
优势：
- 高效便捷：通过简单的英文句子输入，工程师可以快速获取诊断结果，大大提高了工作效率。
- 实时监控：K8sGPT 可以对集群状态进行实时监控和分析，及时发现潜在的问题和风险。
- 智能分析：利用 AI 算法，K8sGPT 提高了诊断的准确性和可靠性。

K8sGPT 作为基于 AI 的云原生终极工具，为云原生软件工程师提供了强大的支持。

环境

操作系统：
Static hostname: node1
Icon name: computer-vm
Chassis: vm
Machine ID: 22349ac6f9ba406293d0541bcba7c05d
Boot ID: 3261349e4b7b4981a32d255a82484ab8
Virtualization: vmware
Operating System: Ubuntu 22.04.4 LTS
Kernel: Linux 5.15.0-107-generic
Architecture: x86-64
Hardware Vendor: VMware, Inc.
Hardware Model: VMware Virtual Platform

K8s:
Client Version: v1.29.5
Kustomize Version: v5.0.4-0.20230601165947-6ce0bf390ce3
Server Version: v1.29.5

安装

wget https://github.com/k8sgpt-ai/k8sgpt/releases/download/v0.3.32/k8sgpt_amd64.deb
dpkg -i k8sgpt_amd64.deb

使用月之暗面LLM

月之暗面的api是和openai兼容的

申请API
moonshot API
删除默认的openai设置

cp ~/.config/k8sgpt/k8sgpt.yaml ~/.config/k8sgpt/k8sgpt.yaml.orig
>~/.config/k8sgpt/k8sgpt.yaml

生成k8sgpt配置文件

k8sgpt auth add -b openai -u https://api.moonshot.cn -m moonshot-v1-8k
# 填入API key

查看yaml文件

# cat ~/.config/k8sgpt/k8sgpt.yaml
ai:
    providers:
        - name: openai
          model: moonshot-v1-8k
          password: sk-hdKOoZgHOXRDrDfFO4wP9BGZrYdx43qGVqBNuvGL4R28c62a
          baseurl: https://api.moonshot.cn
          temperature: 0.7
          topp: 0.5
          topk: 50
          maxtokens: 2048
    defaultprovider: ""
kubeconfig: ""
kubecontext: ""

测试

k8sgpt analyze --explain
k8sgpt analyze --explain -o json
k8sgpt filters list

在这里插入图片描述

其他命令

Run a scan with the default analyzers

k8sgpt generate
k8sgpt auth add
k8sgpt analyze --explain
k8sgpt analyze --explain --with-doc

Filter on resource

k8sgpt analyze --explain --filter=Service

Filter by namespace

k8sgpt analyze --explain --filter=Pod --namespace=default

Output to JSON

k8sgpt analyze --explain --filter=Service --output=json

Anonymize during explain

k8sgpt analyze --explain --filter=Service --output=json --anonymize

Using filters

List filters

k8sgpt filters list

Add default filters

k8sgpt filters add [filter(s)]

Examples :

Simple filter : k8sgpt filters add Service
Multiple filters : k8sgpt filters add Ingress,Pod

Remove default filters

k8sgpt filters remove [filter(s)]

Examples :

Simple filter : k8sgpt filters remove Service
Multiple filters : k8sgpt filters remove Ingress,Pod

Additional commands

List configured backends

k8sgpt auth list

Update configured backends

k8sgpt auth update $MY_BACKEND1,$MY_BACKEND2..

Remove configured backends

k8sgpt auth remove -b $MY_BACKEND1,$MY_BACKEND2..

List integrations

k8sgpt integrations list

Activate integrations

k8sgpt integrations activate [integration(s)]

Use integration

k8sgpt analyze --filter=[integration(s)]

Deactivate integrations

k8sgpt integrations deactivate [integration(s)]

Serve mode

k8sgpt serve

Analysis with serve mode

grpcurl -plaintext -d '{"namespace": "k8sgpt", "explain": false}' localhost:8080 schema.v1.ServerService/Analyze

FAQ

目前有那些大模型ai可以自动运维k8s集群

目前有一些大模型 AI 工具可以帮助自动运维 Kubernetes（K8s）集群。让我为您介绍其中两个：

k8sgpt：这是一个新一代AI驱动的Kubernetes诊断工具，专门用于扫描Kubernetes集群、诊断和分级问题。它将站点可靠性工程（SRE）的经验编码到其分析器中，并通过AI丰富问题的解释。k8sgpt支持与多个AI服务提供商的开箱即用集成，包括OpenAI、Azure、Cohere、Amazon Bedrock、Google Gemini以及本地模型¹. 您可以在k8sgpt官网上了解更多信息。
KServe + vLLM：这是一个与云无关的标准大模型推理平台，专为大模型应用高度可扩展而构建。KServe封装了自动扩展、网络、健康检查和服务器配置的复杂性，使得生产大模型应用服务变得简单、可插拔。vLLM是一种快速且易于使用的低延迟模型推理引擎，支持高吞吐量和GPU利用率。您可以使用KServe + vLLM部署大模型的推理服务，将大模型应用到实际业务场景中.

还有其他类似的AI自动运维K8s集群的工具吗？

当然，除了之前提到的 k8sgpt 和 KServe + vLLM，还有其他一些类似的AI自动运维K8s集群的工具。以下是其中两个值得关注的工具：

Kubectl-GPT：这是一个Kubectl插件，可以使用GPT模型从自然语言输入生成Kubectl命令。您只需输入您想要执行的操作，Kubectl-GPT会自动转换成相应的Kubernetes集群命令。您可以使用Homebrew或Krew来安装Kubectl-GPT，并在终端中运行命令.
- 使用Homebrew安装：
```
brew tap devinjeon/kubectl-gpt
brew install kubectl-gpt
```
- 使用Krew安装：
```
kubectl krew index add devinjeon https://github.com/devinjeon/kubectl-gpt
kubectl krew install devinjeon/gpt
```
您可以通过自然语言输入运行命令行工具，生成Kubectl命令，例如：
```
kubectl gpt "Print the creation time and pod name of all pods in all namespaces."
```
Kube-Copilot：这是由OpenAI支持的Kubernetes Copilot。它具有以下主要功能：
- 使用ChatGPT（GPT-4或GPT-3.5）自动执行Kubernetes集群操作。
- 诊断和分析Kubernetes工作负载的潜在问题。
- 根据提示说明生成Kubernetes清单。
- 利用本地kubectl和trivy命令进行Kubernetes集群访问和安全漏洞扫描。
  您可以通过Helm或kubectl在Kubernetes中运行Kube-Copilot，也可以在本地安装并使用pip命令安装Kube-Copilot².
安装示例（使用Helm）：
```
# 使用Helm和OpenAI API密钥
helm install kube-copilot kube-copilot \
    --repo https://feisky.xyz/kube-copilot \
    --set openai.apiModel=gpt-4 \
    --set openai.apiKey=$OPENAI_API_KEY
```
或者，您可以使用kubectl运行Kube-Copilot：
```
kubectl run -it --rm copilot \
    --env="OPENAI_API_KEY=$OPENAI_API_KEY" \
    --restart=Never \
    --image=ghcr.io/feiskyer/kube-copilot \
    -- execute --verbose 'What Pods are using max memory in the cluster'
```

这些工具将帮助您更好地管理和运维Kubernetes集群，提高效率并优化资源利用率。

k8sgpt可以接本地的ollama模型吗

当然可以！k8sgpt 可以接入本地部署的 ollama 模型。让我为您详细介绍一下如何实现这个集成。

安装 Ollama：
- 首先，您需要安装 Ollama。您可以从官方网站下载 Ollama 的 Windows 安装程序并进行安装。
- 安装完成后，您需要设置 Ollama 的存储位置，可以通过设置环境变量来实现。
下载 Ollama 模型：
- 在 Ollama 官网上，您可以找到模型列表。复制您想要使用的模型的名称。
- 打开命令行（cmd），粘贴模型名称并开始下载。下载完成后，您可以在本地的命令行中与模型进行对话。
安装部署 Fastgpt：
- 您还可以部署 Fastgpt，这是一个与云无关的标准大模型推理平台。您可以使用 Docker Compose 快速部署 Fastgpt。
- 配置 Fastgpt 的模型，将 Ollama 集成到您的应用中。
配置 ChatOllama：
- 访问 ChatOllama，配置 Ollama 的地址。
- 下载 embedding 和 chat 模型，进行推理和对话。
配置 One API：
- 创建一个令牌并设置无限访问时间。
- 创建 chat 和 embedding 渠道，将 Ollama 集成到您的应用中。
配置 Fastgpt：
- 找到 Fastgpt 的配置文件 config.json，配置 Ollama 模型。
- 重新启动 Fastgpt。