服务器数据恢复环境:
DELL POWEREDGE某型号服务器中有一组由6块SCSI硬盘组建的RAID5阵列,LINUX REDHAT操作系统,EXT3文件系统,存放图片文件。
服务器故障&分析:
服务器raid5阵列中有一块硬盘离线,管理员没有及时发现,直到服务器raid5阵列中的另一块硬盘掉线,raid5阵列瘫痪,服务器无法正常工作。管理员联系DELL售后,DELL工程师建议将其中一块离线硬盘强制上线并强调了该操作的风险性。和领导的商量后,管理员将其中的一块离线盘强制上线。上线过程中发现服务器操作系统启动异常,管理员于是马上关闭服务器。
此类故障非常普遍。RAID5阵列仅支持一块硬盘掉线的冗余保护,如果有两块硬盘离线,RAID5阵列便会崩溃。为了保护数据,RAID控制器厂商的设计思路为:只要有硬盘下线,RAID控制器是不会自动让离线硬盘上线的。由于RAID控制器的高敏感度,通常掉线的硬盘大概率不会存在严重的物理故障,甚至很多离线硬盘是完好的(掉线原因可能是信号受阻、电源波动或控制器BUG等)。正如DELL工程师强调的,强制上线有较大的风险性,如果强制上线出现问题,RAID控制器会自动做出某些不可逆操作。这个时候进入操作系统,文件系统的不一致会造成系统进行自我修复,然后导致所有的硬盘数据不一致。
服务器数据恢复过程:
1、将故障服务器中所有磁盘编号后取出,以只读方式做扇区级别的镜像备份,后续的数据分析和数据恢复操作都基于镜像文件进行,备份后将所有磁盘按照编号还原到原服务器中。在备份过程中发现多块硬盘存在坏道,只是RAID控制器没有检测到,暂时没有下线。
2、基于镜像文件分析原RAID5阵列的结构,根据分析出来的RAID结构相关信息构建虚拟RAID。
3、验证RAID结构的正确性,北亚企安数据恢复工程师修复部分被破坏的结构后将数据导出到另一存储中。
4、在原服务器上搭建新的RAID并将数据迁移至新RAID中。
5、用户通过抽样检测,绝大部分图片文件可以正常打开,只有有极少数文件有问题,用户认可数据恢复结果。