近期连续遇到2个由于对VMAX存储系统没有做及时的健康检查,出现SPS电池故障没有及时处理,然后同一pair就是同一对的另外一个SPS电池再次出现故障,然后存储系统保护性宕机vault,然后业务系统挂掉的案例。
开始之前,先纠正很多朋友的一个误区,健康检查就是每天到机房去物理肉眼巡视一圈,如果有黄灯或者红灯点亮,就是有故障了,然后再到系统中去查看。然并卵,VMAX的设计不是这样的,即使有故障发生,VMAX也不会有任何的LED故障灯点亮,就是磁盘坏了很多块,也都是绿灯常亮。当然,对于电池,电源这些如果有故障,这些特定部件的LED灯会点亮的。但没有一个总的故障灯。
所以这里介绍下EMC VMAX存储健康检查的主要方法和详细步骤。对于检查中出现的任何问题可以联系我们,添加vx:StorageExpert进行处理。
1. solution enabler
很多朋友使用solution enabler 跑命令来做检查,这个方法简单,在任何安装了solution enabler的机器上都可以运行,具体命令另外文章做介绍。
其实也可以在vmax的控制台上运行solution enabler命令,有些不能用的原因是使用了破解系统,这个我们是不推荐的。
2. unisphere图形界面
这个最友好,直接访问控制台的管理口就可以访问图形界面,但是这个出来的结果有时候不是很准确,容易漏掉一些故障。
3. symmwin巡检
这个是最权威和最准确的巡检方法和工具。这里要重点介绍的就是Symmwin巡检方法。登录symmwin以后,对于普通小伙伴要做的是两个巡检,对于大师们,可以有第三个。下面一一介绍:
3.1 symmwin的healthcheck脚本
选择Procedures -> Then Procedure Wizard ->
选择run,系统就可以提示一步一步的操作。最后如果是绿色结束,说明没有问题。如果是红色结束,说明有问题,要查看具体的问题。
如果脚本报错,会出现一个类似下图的红框,说明脚本有问题了,要处理掉才可以继续。
巡检脚本比较少出现红框,但也有,特别是在一些破解场景下。
巡检脚本跑完后,会自动弹出一个healthcheck.log的日志框,可以检查巡检的结果,报错都在这个里面了。
对这个结果要仔细看,这个应该是最权威的健康检查结果,solution enabler的,bad fru的都没有这个权威,对于里面的任何报错信息都要重视。
上图就可以看到有一个盘是有问题的,但实际上在bad fru里面没有这个盘出现。
3.2 环境检查 environment
由于这个是图形界面,很直观,我发现很多朋友把这个当作最权威的巡检工具了。这个工具其实只检查和环境有关的内容,对于逻辑部分,如device,volume,磁盘这些是不做检查的,这些内容的检查还是要到procedure的healthcheck中去查看。
选择tools,选择 environment, 然后选择 health check, 可以进行环境方面的健康检查,主要是检查电源,电池等。
点击 RUN health Check
检查结束后,会显示一个report,那些OK,那些有问题一目了然,照方抓药就可以了。
如果检查出有问题,可以直接点击下面的红色alarms或者黄色comm等,直接跳转到有告警的地方。
日志位置
日志文件DMX3/4: O:\ECM\<sn>\logs\symmwin\HealthCheck.log
VMAX:O:\EMC\<sn#>\SYMMWIN\scripts\HealthCheck_00000xx\healthcheck.log ,同时也压缩在下述文件中:
O:\EMC\SN#\log_zip\SN#_date_time_healthcheck_xxx.zip