大数据之LibrA数据库系统告警处理(ALM-12033 慢盘故障)

告警解释

系统每一秒执行一次iostat命令,监控磁盘I/O的系统指标,如果在60s内,svctm大于100ms的周期数大于30次则认为磁盘有问题,产生该告警。

更换磁盘后,告警自动恢复。

告警属性

告警ID

告警级别

可自动清除

12033

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

DiskName

产生告警的磁盘名。

对系统的影响

磁盘慢盘故障,导致业务性能下降,阻塞业务的处理能力,例如DBService主备同步等,严重时可能会导致服务不可用。

可能原因

磁盘老化或者磁盘坏道。

处理步骤

检查磁盘状态。

  1. 在FusionInsight Manager界面,单击“告警管理”。
  2. 查看该告警的详细信息,查看定位信息中“HostName”字段和“DiskName”字段的值,获取该告警产生的故障磁盘信息。
  3. 确认上报告警的节点是否为虚拟化环境。

    • 是,执行步骤 4。
    • 否,执行步骤 7。

  4. 请检查虚拟化环境提供的存储性能是否满足硬件要求,检查完毕之后执行步骤 17。

    说明:

    硬件要求说明,可参考产品文档中《产品描述》的“部署方案 > 硬件及运行环境要求”章节。

  5. 登录告警节点,执行df -h命令,查看输出内容是否包含“DiskName”字段的值。

    • 是,执行步骤 7。
    • 否,执行步骤 6。

  6. 执行lsblk命令,是否可以查到“DiskName”字段值与磁盘设备的映射关系。

    • 是,执行步骤 7。.
    • 否,执行步骤 25。

  7. 使用PuTTY工具,以root用户登录上报告警的节点,执行lsscsi | grep "/dev/sd[x]"命令查看磁盘的设备信息,判断磁盘是否建立了RAID。

    说明:

    其中/dev/sd[x]步骤 2中获取到的上报告警的磁盘名称。

    例如执行:

    lsscsi | grep "/dev/sda"

    如果命令执行结果第三列显示ATA、SATA或者SAS,说明磁盘没有建立RAID;显示其他信息,则该磁盘可能建立了RAID。

    • 是,执行步骤 12。
    • 否,执行步骤 8。

  8. 执行smartctl -i /dev/sd[x]命令检查硬件是否支持smart。

    例如执行:

    smartctl -i /dev/sda

    如果命令执行结果中包含“SMART support is: Enabled”,表示磁盘支持smart;执行结果中包含“Device does not support SMART”或者其他,表示磁盘不支持smart。

    • 是,执行步骤 9。
    • 否,执行步骤 17。

  9. 执行smartctl -H --all /dev/sd[x]命令查看smart的基本信息,判断磁盘是否正常。

    例如执行:

    smartctl -H --all /dev/sda

    查看命令执行结果的“SMART overall-health self-assessment test result”内容,如果是“FAILED”,表示磁盘故障,需要更换;如果为“PASSED”,需要进一步看“Reallocated_Sector_Ct”或者“Elements in grown defect list”项的计数,如果大于100,则认为磁盘故障,需要更换。

    • 是,执行步骤 10。
    • 否,执行步骤 18。

  10. 执行smartctl -l error -H /dev/sd[x]命令查看磁盘的GLIST列表,进一步继续判断磁盘是否正常。

    例如执行:

    smartctl -l error -H /dev/sda

    查看命令执行结果的“Command/Featrue_name”列,如果出现“READ SECTOR(S)”或者“WRITE SECTOR(S)”表示磁盘有坏道;如果出现其他错误,表示磁盘电路板有问题。这两种错误均表示磁盘不正常,需要更换。

    如果显示“No Errors Logged”,则表示没有错误日志,则可以触发磁盘smart自检。

    • 是,执行步骤 11。
    • 否,执行步骤 18。

  11. 执行smartctl -t long /dev/sd[x]命令触发磁盘smart自检。命令执行后,会提示自检完成的时间,在等待自检完成后,重新执行步骤 9和步骤 10,检查磁盘是否正常。

    例如执行:

    smartctl -t long /dev/sda

    • 是,执行步骤 17。
    • 否,执行步骤 18。

  12. 执行smartctl -d [sat|scsi]+megaraid,[DID] -H --all /dev/sd[x]命令检查硬件是否支持smart。

    说明:
    • [sat|scsi]表示磁盘类型,需要尝试以上两种类型。
    • [DID]表示槽位信息,需要尝试0~15。

    例如依次执行:

    smartctl -d sat+megaraid,0 -H --all /dev/sda

    smartctl -d sat+megaraid,1 -H --all /dev/sda

    smartctl -d sat+megaraid,2 -H --all /dev/sda

    ...

    依次尝试不同磁盘类型和槽位信息的命令组合,如果执行结果中显示“SMART support is: Enabled”,表示磁盘支持smart,记录命令执行成功时磁盘类型和槽位信息组合参数;如果尝试完以上所有的命令组合,执行结果都未显示“SMART support is: Enabled”,表示磁盘不支持smart。

    • 是,执行步骤 13。
    • 否,执行步骤 16。

  13. 执行步骤 12中记录的smartctl -d [sat|scsi]+megaraid,[DID] -H --all /dev/sd[x]命令查看smart的基本信息,判断磁盘是否正常。

    例如执行:

    smartctl -d sat+megaraid,2 -H --all /dev/sda

    查看命令执行结果的“SMART overall-health self-assessment test result”内容,如果是“FAILED”,表示磁盘故障,需要更换;如果为“PASSED”,需要进一步看“Reallocated_Sector_Ct”或者“Elements in grown defect list”项的计数,如果大于100,则认为磁盘故障,需要更换。

    • 是,执行步骤 14。
    • 否,执行步骤 18。

  14. 执行smartctl -d [sat|scsi]+megaraid,[DID] -l error -H /dev/sd[x]命令查看硬盘的GLIST列表,进一步判断硬盘是否正常。

    例如执行:

    smartctl -d sat+megaraid,2 -l error -H /dev/sda

    查看命令执行结果的“Command/Featrue_name”列,如果出现“READ SECTOR(S)”或者“WRITE SECTOR(S)”表示磁盘有坏道;如果出现其他错误,表示磁盘电路板有问题。这两种错误均表示磁盘不正常,需要更换。

    如果显示“No Errors Logged”,则表示没有错误日志,则可以触发磁盘smart自检。

    • 是,执行步骤 15。
    • 否,执行步骤 18。

  15. 执行smartctl -d [sat|scsi]+megaraid,[DID] -t long /dev/sd[x]命令触发磁盘smart自检。命令执行后,会提示自检完成的时间,在等待自检完成后,重新执行步骤 13和步骤 14,检查磁盘是否正常。

    例如执行:

    smartctl -d sat+megaraid,2 -t long /dev/sda

    • 是,执行步骤 17。
    • 否,执行步骤 18。

  16. 磁盘不支持smart,通常是因为配置的RAID卡不支持,此时需要使用对应RAID卡厂商的检查工具进行处理,然后执行步骤 17。

    例如LSI一般是MegaCli工具。

  17. 删除告警,并继续观察该告警,查看同一块磁盘的告警是否会继续上报。

    如果当前磁盘出现三次以上该告警,建议用户更换磁盘。

    • 是,执行步骤 18。
    • 否,操作结束。

更换磁盘。

  1. 在FusionInsight Manager界面,单击“告警管理”。
  2. 查看该告警的详细信息,查看定位信息中对应的“HostName”字段和“DiskName”字段的值,获取该告警上报的故障磁盘信息。
  3. 参考产品文档《故障管理》的“应急处理 > 常见紧急故障修复 > 硬盘故障处理”章节进行更换硬盘操作。
  4. 检查告警是否清除。

    • 是,操作结束。
    • 否,执行步骤 22。

收集故障信息。

  1. 在FusionInsight Manager界面,单击“系统设置 > 日志下载”。
  2. 在“服务”下拉框中勾选“Manager”,单击“确定”。
  3. 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/139632.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大咖直播间”系列直播课第一期——如何抓住HarmonyOS带来的机遇?

想了解#HarmonyOS#背后隐藏着怎样的商业机遇? 想成功搭上万物互联快车,与HarmonyOS一起发展壮大? 想知道开发者应该怎样把握时代机遇,实现高质高效就业? 答案尽在#华为开发者学堂#《大咖直播间》第一期课程&#xff0c…

VMware配置NAT模式网络

一、选择VMWare的NAT模式。 1)导航栏“编辑”->“虚拟网络编辑器” ->NAT模式->NAT设置 记住NAT设置中的子网IP、子网掩码、网关IP三项,接下来配置文件主要是这三项。 嗯,这里记得按确定,我之前没有按确定写好配置后还…

世微 降压恒流 12V 5A 一切一双灯 LED汽车大灯驱动方案 AP5191

AP5191是一款PWM工作模式,高效率、外围简 单、内置功率MOS管,适用于4.5-150V输入的高 精度降压LED恒流驱动芯片。输出功率150W, 电流6A。 AP5191可实现线性调光和PWM调光,线性调 光脚有效电压范围0.55-2.6V. AP5191 工作频率可以通过RT 外部…

低代码平台如何提高开发效率?

目录 一、开发工具:JNPF 二、产品分析 1可视化应用开发 2流程管理 3特别支持整个平台源码合作 三、使用技巧 四、总结 在当今快速发展的软件开发领域,提高生产效率和质量是每个开发团队追求的目标。JNPF(Java Non-Enterprise Applicat…

EM@一次双绝对值不等式

文章目录 一次双绝对值不等式求解步骤去绝对值情况分析👺例例代数法几何方法比较 例 一次双绝对值不等式求解步骤 设 f ∣ f 1 ∣ ∣ f 2 ∣ f|f_1||f_2| f∣f1​∣∣f2​∣, f 1 , f 2 f_1,f_2 f1​,f2​都是一次多项式,则原不等式 f ⩾ a f\geqslant{a} f⩾a或 …

RocketMQ基本概念

RocketMQ基本概念 前言RocketMQ中的基本概念主题(Topic)标签(Tag) 生产者(Producer)生产者组(Producer-Group) 消费者 (Consumer)消费者组(Consum…

数据结构--图解单链表

学习链表最重要的就是会画图,尤其是要理解链表的逻辑结构和物理结构,理解链表的底层原理才能使用的如鱼得水。 希望这篇文章可以帮助各位,记得关注收藏哦;若发现问题希望私信博主,十分感谢。 当然学习链表是需要大家对…

分享一些有趣的MATLAB提示音(代码可直接复制)

先做一个声明:文章是由我的个人公众号中的推送直接复制粘贴而来,因此对智能优化算法感兴趣的朋友,可关注我的个人公众号:启发式算法讨论。我会不定期在公众号里分享不同的智能优化算法,经典的,或者是近几年…

江门車馬炮汽车金融中心 11月11日开张

江门车马炮汽车金融中心于11月11日正式开张,这是江门市汽车金融服务平台,旨在为广大车主提供更加便捷、高效的汽车金融服务。 江门市作为广东省的一个经济发达城市,汽车保有量持续增长,但车主在购车、用车、养车等方面仍存在诸多不…

JSON.parse --- 搜索框

一 &#xff0c; JSON.parse this.num_normsTwo JSON.parse(res.result.normsTwo) 二. 搜索框 <template><div class"app-container"><span style"margin-left:120px;margin-right: 20px;width: 100px; display: inline-block;">物…

【现场问题】datax中write部分为Oracle的时候插入clolb类型字段,插入的数据为string且长度过场问题

datax的Oraclewriter 报错显示查询报错展示查找datax中的数据插入模块 报错显示 occurred during batching: ORA-01704: string literal too long 查询报错展示 基本上查到的都是这样的&#xff0c;所以锁定是clob的字段类型的问题&#xff0c;而且是只有Oracle出问题&#…

竞赛 题目:垃圾邮件(短信)分类 算法实现 机器学习 深度学习 开题

文章目录 1 前言2 垃圾短信/邮件 分类算法 原理2.1 常用的分类器 - 贝叶斯分类器 3 数据集介绍4 数据预处理5 特征提取6 训练分类器7 综合测试结果8 其他模型方法9 最后 1 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 基于机器学习的垃圾邮件分类 该项目…

【python】Django——django简介、django安装、创建项目、快速上手

笔记为自我总结整理的学习笔记&#xff0c;若有错误欢迎指出哟~ Django基础——django安装、创建django项目、django快速上手 django简介django安装1. conda创建环境pydjango2. pip安装django3. django目录 创建项目1. 打开终端(cmd)2. 进入某个目录3.创建项目命令4.django项目…

MS321V/358V/324V低压、轨到轨输入输出运放

MS321V/MS358V/MS324V 是单个、两个和四个低压轨到轨输 入输出运放&#xff0c;可工作在幅度为 2.7V 到 5V 的单电源或者双电源条件 下。在低电源、空间节省和低成本应用方面是最有效的解决方案。 这些放大器专门设计为低压工作&#xff08; 2.7V 到 5V &#xff09;…

假冒 Skype 应用程序网络钓鱼分析

参考链接: https://slowmist.medium.com/fake-skype-app-phishing-analysis-35c1dc8bc515 背景 在Web3世界中&#xff0c;涉及假冒应用程序的网络钓鱼事件相当频繁。慢雾安全团队此前曾发表过分析此类网络钓鱼案例的文章。由于Google Play在中国无法访问&#xff0c;许多用户…

2023前端流行的新技术

作为2023年之前的技术水平有限&#xff0c;以下是一些目前为止较为热门的前端开发技术和趋势&#xff0c;这些技术可能在2023年之前进一步发展和普及。 前端程序员可以考虑学习和掌握以下技术&#xff1a; 1.Vue 3和React Hooks&#xff1a;Vue.js和React是目前最受欢迎的JavaS…

软文推广时应该从哪几个角度切入

数字化时代的来临改变了企业推广的方式&#xff0c;软文推广逐渐渗透企业的日常生活中&#xff0c;然而企业想要软文推广行之有效&#xff0c;就需要清晰自己推广的产品和品牌信息&#xff0c;将信息进行明确规划后根据相应的需求进行推广&#xff0c;这也是今天媒介盒子和大家…

Java编程--定时器/线程池/工厂模式/ ThreadPoolExecutor

前言 逆水行舟&#xff0c;不进则退&#xff01;&#xff01;&#xff01; 目录 什么是定时器 实现一个定时器 自己实现一个定时器 什么是线程池 线程池的使用&#xff1a; 什么是工厂模式&#xff1f; 自己实现一个线程池&#xff1a; ThreadPoolExecutor 类…

【设计模式】策略模式

引例 方案一 说明&#xff1a; 不满足OCP&#xff0c;添加新的排序算法或修改某个已有排序算法需要重新编译整个类可复用性差&#xff0c;Sorting类不可被直接复用 方案二 将客户类和算法类分开 说明&#xff1a;Sorting类可复用&#xff0c;但Sorting类仍不满足OCP 方案三…