OCP使用中的常见问题与解决方法

OCP的常见问题

页面卡顿:

遇到页面卡顿的问题时,首先需要区分是全局性的卡顿,即所有页面都出现延迟或响应缓慢,还是仅限于特定的监控页面。

监控数据看不到:

需要明确是全部数据都无法查看,还是仅限于特定集群的数据,亦或是仅仅一两个特定的监控数据项无法被访问到。

问题排查

因为 OCP 是一个 web 应用,一般的问题都是反应在页面上的,所以一般排查过程也是从页面上来入手的, 在浏览器中右键,点击inspect element, 打开调试窗口,然后点 Network, 可以看浏览器请求。

1677810636

页面卡顿:

针对页面卡顿的现象,主要需要分析请求的时间,Queued 的时间表示请求的排队时间,waiting 的时间表示等待的时间,一般是后端的响应时间,download 表示数据下载的时间,OCP 后端的返回结果中也会有响应时间,duration字段表示响应时间。

1677810662

1677810673

最需要关心的是 OCP 的响应时间,如果 OCP 的响应时间不长的话,一般后端服务没问题,需要关注其他的方面

如果客户的主机和 OCP 之间的网络条件比较差,而页面请求的监控数据比较多的时候,Download时间会比较久,如果再打开了实时页面,很可能会因为浏览器并发请求的限制,造成请求的排队, 需要考虑解决网络的问题。

如果是 OCP 响应时间长,需要再做详细的分析,根据 OCP 响应结果中的 traceid, 去 OCP 的日志中搜索,可以找到这个请求完整的处理流程的日志, 可以看日志文件中的时间戳,如果两条日志之间的时间差比较大,应该就是耗时的操作。

当 OCP 所有页面都有卡顿的时候,一般要关注 OCP 的 GC 情况,可以通过以下命令来查看,主要关注 full gc 的次数和时间.

jstat -gcutil $pid 1000

另外 OCP 的 gc 情况也会记录在 gc.log.0.current 中

数据缺失:

因为 OCP 的监控数据采集和持久化都是后台任务,通过traceid可能查询不到有用的信息,需要查询一些其他的信息,按照一些关键字来进行日志搜索。

  1. 查找 ocp 的日志

ocp 如果有多个节点,尽量都搜一下。

采集失败,ocp 日志中会有 'collect failed' 的日志,可以作为关键字进行搜索,查找监控线程相关的日志,pool-metric 作为关键字,另外 ERROR 日志也需要关注,特别是写 db 是否有失败的日志。

  1. 查找 agent 日志

首先找到失败的exporter, ocp 会在metadb表中记录所有的exporter, 如果采集失败多次,status 会变成 inactive,可以首先看哪些是inactive状态的,去对应主机上找日志。

1677810691

ocp-agent 监控进程的日志在 /home/admin/ocp_agent/log/monagent.log, 可以搜索ERROR信息。

常用处理方式

  1. 页面请求 download 和 queue 时间长,可以看客户主机和 ocp 的网络情况,是否打开了实时页面,可以考虑先关闭实时请求页面,并且平时使用的时候注意实时页面开了之后记得关闭。或者优化网络情况。
  2. 有 fullgc,看下资源使用情况,首先避免资源不够,包括docker的和元数据库两个租户的资源,3.3.0 可以考虑关闭掉不必要的后台任务。
  3. 采集失败,需要根据具体的日志来分析。
  4. 如果客户自己处理不了,尽量收集更多的信息,需要把 ocp 的日志,agent 的日志,gc 状态这些信息都搜集下来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/956956.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大模型LLM-微调 RAG

RAG小结 这篇文章是一篇关于大型语言模型(LLMs)增强技术的综述论文,特别聚焦于检索增强生成(Retrieval-Augmented Generation, RAG)这一领域。详细考察了RAG的发展、技术基础、关键技术、评估框架以及未来的研究方向。…

51c~缺陷检测~合集2

我自己的原文哦~ https://blog.51cto.com/whaosoft/12386431 一、缺陷检测~使用深度学习1 这里研究工业ai, 在制造业中任何公司的主要目标都是为客户生产无缺陷产品。如果在产品开发过程中出现任何内部孔、凹坑、磨损或划痕(由于多种原因,从生产设备…

25春秋杯wp

春秋杯 图片不显示的去我blog找👇 25春秋杯 | DDLS BLOG 文章所有内容部分来自自己写的,部分来自各路非公开wp,部分来自公开wp(附上链接,在文章末尾) easy_flask {{().__class__.__mro__.__getitem__(1).__subclasses__()[13…

C# 事件(Event)详解

C# 事件详解 事件(Event)是 C# 中的一种特殊类型的委托,它是基于委托的基础上构建的,用来实现事件驱动编程。在 C# 中,事件常用于处理用户输入、系统通知、数据更新等场景,允许一个对象通知其他对象某些行…

三维扫描赋能文化:蔡司3D扫描仪让木质文化遗产焕发新生-沪敖3D

挪威文化历史博物馆在其修复工作中融入现代3D扫描技术,让数百年的历史焕发新生。 文化历史博物馆的工作 文化历史博物馆是奥斯陆大学的一个院系。凭借其在文化历史管理、研究和传播方面的丰富专业知识,该博物馆被誉为挪威博物馆研究领域的领先机构。馆…

Ubuntu 24.04 LTS 系统语言英文改中文

Ubuntu 24.04 LTS 修改软件源 Ubuntu 更改软件源 修改语言 无需输入命令,为Ubuntu 24.04系统添加中文智能拼音输入法 在 setting 的 system 中按下图操作 点击“Apply Changes”。需要管理员密码,安装完成后,退出登录,重新登…

Qt按钮美化教程

前言 Qt按钮美化主要有三种方式:QSS、属性和自绘 QSS 字体大小 font-size: 18px;文字颜色 color: white;背景颜色 background-color: rgb(10,88,163); 按钮边框 border: 2px solid rgb(114,188,51);文字对齐 text-align: left;左侧内边距 padding-left: 10…

51c自动驾驶~合集48

我自己的原文哦~ https://blog.51cto.com/whaosoft/13133866 #UDMC 考虑轨迹预测的统一决策控制框架 论文:https://arxiv.org/pdf/2501.02530 代码:​​https://github.com/henryhcliu/udmc_carla.git​​ 1. 摘要 当前的自动驾驶系统常常在确…

C# 动态创建Label和ComboBox控件并修改Text

背景:在做项目的时候可能需要根据一定数量创建某些控件并修改其属性,本文以控件label、ConboBox控件进行动态创建。 程序运行前后的的Form动态图 代码如下: using System; using System.Collections.Generic; using System.ComponentModel; …

【物联网】keil仿真环境设置 keilV5可以适用ARM7

文章目录 一、ARM指令模拟器环境搭建1. keil软件2. Legacy Support 二、Keil仿真环境设置1. 创建一个项目2. 编译器介绍(1)arm-none-eabi-gcc(2)arm-none-linux-gnueabi-gcc(3)arm-eabi-gcc(4)grmcc(5)aarch64-linux-gnu-gcc 3. 安装编译器(1)设置调试 一、ARM指令模拟器环境搭…

2024年度总结:从后端Java到全栈成长的蜕变

目录 前言1. 用数据与实践书写成长篇章2. 技术与生活的双重蜕变3. 技术的进阶与生活的绽放 前言 今年是我入行的第十年,也是记录在CSDN平台上的第五年。这五年来,我始终坚持记录成长的点滴,将个人事业与博客创作紧密相连。一路走来&#xff0…

U-Net - U型网络:用于图像分割的卷积神经网络

U-Net是一种专为图像分割任务设计的卷积神经网络(CNN),最初由Olaf Ronneberger等人于2015年提出。它被广泛应用于医学影像分析、遥感图像分割、自动驾驶和其他许多需要对图像进行像素级分类的任务中。U-Net具有强大的特征提取和恢复能力&…

SpringCloud基础一

前后端分离开发 前后端分离开发后,前后端代码不在混合在同一个maven工程中,而是分为前端工程和后端工程。此时前后端代码并行开发,可以加快项目的开发进度在前后端代码分离后,此时后端工程会打包部署到Tomcat上,前端工…

MFC中添加Richedit2.0控件导致程序无法运行的解决方法mfc richedit2 Detected memory leaks! 及控件使用

错误:拖Richedit2.0控件到界面,编译提示mfc richedit2 Detected memory leaks! 原因:在MFC中添加Richedit2.0控件,可能会导致程序出错或无法运行。这是由于RichEdit没有初始化导致的。 解决:在 继承自CWinApp的类中的…

每打开一个chrome页面都会【自动打开F12开发者模式】,原因是 使用HBuilderX会影响谷歌浏览器的浏览模式

打开 HBuilderX,点击 运行 -> 运行到浏览器 -> 设置web服务器 -> 添加chrome浏览器安装路径 chrome谷歌浏览器插件 B站视频下载助手插件: 参考地址:Chrome插件 - B站下载助手(轻松下载bilibili哔哩哔哩视频&#xff09…

【电视盒子】HI3798MV300刷机教程笔记/备份遥控码修复遥控器/ADB/线刷卡刷/电视盒子安装第三方应用软件

心血来潮,看到电视机顶盒满天飞的广告,想改造一下家里的电视盒子,学一下网上的人刷机,但是一切都不知道怎么开始,虽然折腾了一天,以失败告终,还是做点刷机笔记。 0.我的机器 年少不会甄别&…

USART_串口通讯轮询案例(HAL库实现)

引言 前面讲述的串口通讯案例是使用寄存器方式实现的,有利于深入理解串口通讯底层原理,但其开发效率较低;对此,我们这里再讲基于HAL库实现的串口通讯轮询案例,实现高效开发。当然,本次案例需求仍然和前面寄…

AI绘画入门:探索数字艺术新世界(1/10)

引言:AI 绘画的兴起与现状 在科技飞速发展的当下,AI 绘画如同一场艺术领域的风暴,正以惊人的速度席卷而来,彻底改变着我们对艺术创作的认知。近年来,AI 绘画相关的话题屡屡登上热搜,从社交媒体上各种 AI 生…

多线程杂谈:惊群现象、CAS、安全的单例

引言 本文是一篇杂谈,帮助大家了解多线程可能会出现的面试题。 目录 引言 惊群现象 结合条件变量 CAS原子操作(cmp & swap) 线程控制:两个线程交替打印奇偶数 智能指针线程安全 单例模式线程安全 最简单的单例&…

Ubuntu -- 几行命令使用Ollama部署本地AI大模型, 仅调用api, 快速测试api效果

需求 需要在本地快速部署一个大模型, 然后使用 局域网 的其他电脑进行 api调用为了快速测试, 大模型选择了 qwen2:0.5B 进行快速测试 开始 下载安装 ollama curl -fsSL https://ollama.com/install.sh | sh验证安装 ollama --version下载安装模型并运行 ollama run qwen2:…