金融行业现场故障处理实录

  1. KL银行现场服务记录—HA故障

服务时间

2019年9月10日星期二 14:40 到2019年9月11日星期三 0:30

服务内容

  • 排查redhat RHEL 6.4 一个节点cman启动故障。

(1)、查看系统日志;

(2)、查看ha日志,/etc/cluster下各日志文件;

(3)、clustat查看集群状态,提示cman未运行;

(4)、查看集群配置文件/etc/cluster.conf;

(5)、对比另一个正常运行节点的状态及日志输出;

(6)、运行指令 strace –f –o /tmp/cman.log /etc/init.d/cman status ,生成跟踪文件;

strace –f –o /tmp/cman.log /etc/init.d/cman status

由于当前不能执行cman启动操作,故障暂时不能排除。

  • 新的华为服务器,由于使用了UEFI代替老旧的bios进行引导管理,客户在安装redhat RHEL6.4时进行 不下去,顺便协助他正确完成安装。
  • Ha挂接的共享盘报“no clean”,预判文件系统存在问题,准备服务停止后,卸载挂接,然后修复(fsck)。

  1. MS银行(顺义)现场服务记录--kdump故障

问题描述

某Redhat RHEL 6.X系统部署应用以后,运行一段时间,可能会出现系统挂起现象,挂起时间不确定。相关人员怀疑是应用所引起的,为了弄清事实真相,需要在系统挂起前导出core文件。

系统已经配置好kdump,但在启动kdump服务时,无法成功。因此现场服务的主要任务时排查kdump启动故障。

排查过程

  • 检查相关的软件包是否正确安装:rpm-qa|grep kexec-tool ,已经被正确的安装。
  • 检查kdump.conf配置文件,为发现异常;
  • 检查系统日志/var/log/messages,未发现有价值信息;
  • 试着启动服务 service kdump start ,输出提示”找不到内核文件 kernel-15…”。初步判断问题出现在这里。这个数字15是哪里来的呢?
  • 打开文件/etc/sysconfig/kdump,发现其有效行的第一行有异常

通过对比其他正常系统的配置,其值默认为空,不为“15”。在征得同意以后,对其修改,并启动kdump服务。

处理结果

故障排除,完成服务。

  1. TK保险服务器重启排查记录

主要现象

近期以来,每隔2天左右会自动重启,并且重启时间不固定。

主要信息收集

  • 硬件信息:4颗物理cpu,总核数96,总线程数192;内存1T;磁盘多路径连接,划分多个逻辑卷。

  • 操作系统为redhat RHEL 7.4,内核版本3.10.0-693.未进行过版本更新。
  • 应用为db2数据库。

排查过程

  • 查看系统日志,dmesg及打开文件/var/log/messages,并用关键字error、fatal、warning等进行过滤。

egrep –i “error|fatal|warning” /var/log/messages

egrep –i “error|fatal|warning” /var/log/messages

未发现有价值信息。

  • 查看系统用户,存在多个普通用户,并拥有shell(bash)。
  • 查看用户授权,主要是/etc/suders,使用的命令 visudo 。虽然授权指令较多,但未发现有reboot指令的权限授予。
  • 排查用户的计划任务,因为用户较多,使用如下脚本进行查找。
for u in `cat /etc/passwd | cut -d":" -f1`;do sudo crontab -l -u $u;done

for u in `cat /etc/passwd | cut -d":" -f1`;do sudo crontab -l -u $u;done

发现db2数据库启动账号有个重启脚本,设定的时间是每天早上8点。搜索此脚本及所在路径,不存在,建议注释掉此条。

  • 用户反馈,说二线技术支持曾经远程配置了kdump,模拟系统崩溃能生成vmcore文件,但昨天早上(6:00多钟)系统崩溃发生重启,却没有生成转储文件。查看文件/etc/default/grub及/boot/grub2/grub.cfg,其中 crashkernel=786M@0M。鉴于此,把crashkernel的值改成786M,去掉了后边的偏移量。再修改文件/etc/kdump.conf,启用压缩功能。

core_collector makedumpfile -c --message-level 1 -d 31

core_collector makedumpfile -c --message-level 1 -d 31

增加一個选项“-c”,表示启用压缩。

grub2-mkconfig -o /boot/grub2/grub.cfg  

grub2-mkconfig -o /boot/grub2/grub.cfg  

重新生成grub配置,需要重启才能生效。

  • 查看系统参数kernel.sysrq,其值为16,手动方式修改文件 /etc/sysctl.conf,显示指定

Kernel.sysrq=1

修改完执行 sysctl –p 使其生效。

  • 执行下列指令,模拟故障发生。

echo c > /proc/sysrq-trigger

重启完成后,在目录/var/crash确实生成了大文件,大小为4G。

服务建议

等下一次重启,如果生成了vmcore文件,把此文件传到case附件里边,有后台技术对其进行分析。

  1. TK人寿系统修复操作记录

问题及成因

一虚拟机系统, 不能正常引导,但还能进入单用户模式。此虚拟机没有对镜像进行备份,因此无法还原。系统中有用户的数据,因此不能通过重新安装系统来进行有效恢复。

通过沟通,了解到是用户自己在远程执行一個ssh脚本,此脚本有一行”chmod –R 777”的指令,本意是共享一個nfs服务目录,但因为为对目录是否存在进行判断,因此一执行完脚本,所有的目录文件的权限都变成777了。

处理过程

找一台运行正常的,版本一致的系统,对比/etc目录里各种权限与验证有关的目录和权限,如 passwd、shadow、ssh等。用chmod指令逐一进行修改,修改一些权限以后,重启系统,直到能正常运行,并且能用ssh远程登录。

处理结果及建议

交付给用户,然后建议重装系统。但用户自己认为没啥问题,以后再说。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/355719.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

工业PoE交换机的应用场景有哪些?

工业PoE(Power over Ethernet)交换机是一种特殊设计用于工业环境的网络设备,它不仅具备普通交换机的网络连接功能,还能提供电源供给支持PoE设备。以下是工业PoE交换机的一些常见应用场景: 监控系统: 工业…

勒索病毒如何预防?用什么工具

勒索病毒进入服务器加密文件,让文件变得不能访问,我们经常可以见到这样的新闻,被勒索后没什么好的办法,只能交钱。 碰到言而有信的黑客还好。有时候交钱了,坏人也未必给你解密文件。 有什么工具可以预防这样的勒索病…

Windows Qt C++ VTK 绘制三维曲线

Qt 自带数据可视化从文档上看,只能实现三维曲面。 QwtPlot3D在Qt6.6.0上没编译通过。 QCustomPlot 只能搞二维。 VTK~搞起。抄官网demo。 后续需求: 1、对数轴 2、Y轴逆序 3、Z轴值给色带,类似等高线图的色带 期待各位大佬多多指导。…

免费开源的微信小程序源码、小游戏源码精选70套!

微信小程序已经成为我们日常的一部分了,也基本是每个程序员都会涉及的内容,今天给大家分享从网络收集的70个小程序源码。其中这些源码包含:小游戏到商城小程序,再到实用的工具小程序,以及那些令人惊叹的防各大站点的小…

【Linux】动态库和静态库——动态库和静态库的打包和使用、gcc编译、拷贝到系统默认的路径、建立软连接

文章目录 动态库和静态库1.静态库和动态库的介绍2.静态库的打包和使用2.1生成静态库2.2使用静态库的三种方式2.2.1gcc编译2.2.2拷贝到系统默认的路径2.2.3建立软连接 3.动态库的打包和使用3.1生成动态库3.2使用动态库3.3解决加载不到动态库的方法 动态库和静态库 1.静态库和动…

1月全志芯片开源项目分享合辑

1、柚子爱AI相机(YuzuAI-YuzuMaix-AIoT-V831) 本项目于去年4月首次发布,是基于V831的AI相机开源项目,经过几个版本的迭代,最终运用了叠层的设计来实现AI摄像头掌控板的奇葩组合。 开发板主控是全志V831,采…

基于SpringBoot+Redis的前后端分离外卖项目-苍穹外卖微信小程序端(十五)

用户端历史订单模块 1. 查询历史订单1.1 需求分析和设计1.2 代码实现1.2.1 user/OrderController1.2.2 OrderService1.2.3 OrderServiceImpl1.2.4 OrderMapper1.2.5 OrderMapper.xml1.2.6 OrderDetailMapper 2. 查询订单详情2.1 需求分析和设计2.2 代码实现2.2.1 user/OrderCon…

qt初入门7:进度条,定时器,时间控件练习

参考课本demo,空闲时间练习一下进度条,定时器,日期相关控件和使用。 1:demo运行结果 2:进度条控件梳理 进度条显示控件实际上是QProgressBar, 显示的进度可以通过代码控制,也可以通过其他控件上获取到的值…

【算法】BFS算法解决多源最短路问题(C++)

文章目录 前言那么什么是单源最短路 / 多源最短路呢?如何解决此类题?解法一解法二对于解法二,如何编写代码? 算法题542.01矩阵1020.飞地的数量1765.地图中的最高点1162.地图分析 前言 此前我们对 单源最短路 问题进行的讲解&…

Linux中并发程序设计(进程的创建和回收、exec函数使用、守护进程创建和使用、GDB的父、子进程代码的调试、线程的创建和参数传递)

进程的创建和回收 进程概念 概念 程序 存放在磁盘上的指令和数据的有序集合(文件) 静态的 进程 执行一个程序所分配的资源的总称 动态的进程和程序比较 注:进程是存在RAM中,程序是存放在ROM(flash)中的进程内容 BSS段&#xff…

一篇文章搞懂Python的文件读写

目录 一、打开文件 二、读取文件内容 三、写入文件内容 四、追加内容到文件末尾 五、文件路径 六、错误处理 七、关闭文件 八、文件读写的高级功能 总结 在Python中,文件读写是一项常见的操作。通过文件读写,我们可以保存数据,加载数…

算法学习记录:动态规划

前言: 算法学习记录不是算法介绍,本文记录的是从零开始的学习过程(见到的例题,代码的理解……),所有内容按学习顺序更新,而且不保证正确,如有错误,请帮助指出。 学习工具…

Find My资讯|苹果Apple Pencil 3将支持Find My定位查找功能

国外科技媒体 9to5Mac 深挖 iOS 17.4 Beta 1 更新代码,发现了 Apple Pencil 3 的踪迹,并显示该手写笔支持 Find My 功能。这就意味着可以和 AirPods 和 AirTags 一样,用户可以通过 Find My 网络,寻找丢失的 Apple Pencil 手写笔。…

Kotlin for loop: in、 until、 step、 downTo

Kotlin for loop: in、 until、 step、 downTo fun loop1() {for (i in 0..5) {print("$i ")}println("\n1-end\n") }fun loop2() {for (i in 0 until 5) {print("$i ")}println("\n2-end\n") }fun loop3() {for (i in 0 until (5)) {…

探索Viper-适用于GoLang的完整配置解决方案

前言 对于现代应用程序,尤其大中型的项目来说,在程序启动和运行时,往往需要传入许多参数来控制程序的行为,我们可以通过命令行参数,环境变量,配置文件等方式来将参数传递给程序。而Viper库为Golang语言开发…

LabVIEW继电器触点接触电阻自动测试

继电器作为工业中的重要组件,其性能直接影响着整个生产线的可靠性和安全性。触点接触电阻是衡量继电器性能的重要参数,传统的测试方法效率低下且成本高昂。为了解决这些问题,采用LabVIEW软件,结合专业的硬件平台,实现了…

备战蓝桥杯----数据结构及STL应用(基础2)

上次我们讲了vector的大致内容,接下来让我们讲一下栈,队列吧! 什么是栈呢? 很简单,我们用的羽毛球桶就是,我们取的球,是最后放的,栈是一种先进后出的数据结构。 方法函数 s.push(…

怎样做好Code Review

Code Review方案 定义 Code Review代码评审是指在软件开发过程中,通过对源代码进行系统性检查的过程。通常的目的是查找各种缺陷,包括代码缺陷、功能实现问题、编码合理性、性能优化等;保证软件总体质量和提高开发者自身水平 code review …

SRM是什么意思?SRM供应商管理系统哪个好?

阅读本文,您将了解:一、SRM是什么意思;二、SRM的应用价值;三、SRM供应商管理系统哪个好?推荐在零代码平台自主开发。 在当今快速变化的商业环境中,企业之间的协作和效率至关重要。供应链管理作为企业运营的…

HarmonyOS鸿蒙学习笔记(24)AppScope的icon和UIAblity的icon的区别

在HarmonyOS中有两个配置文件app.json5配置文件和module.json5配置文件,两个配置文件都有icon和label标签: 二者区别如下: app.json5的icon app.json5里面的icon和label:对应的是应用图标和应用标签,应用图标和标签是在设置应用…