戴尔DELL服务器数据恢复之浙江移动通信杭州分公司DELL RAID5服务器数据恢复手记
【戴尔DELL PowerEdge6600服务器两个硬盘同时包橘黄灯错误导致RAID5离线OFFLINE linux系统数据无法读取】新年刚过,接到朋友孙先生求救电话,描述他们单位负责的一台DELL PoweEdg 6600 服务器瘫痪,具体原因是这样的:由于服务器其中一个硬盘报错,需要及时替换硬盘,单位工程师在操作过程中由于不放心拔下的硬盘是否损坏,又将同时另外硬盘也拔下来做比较,重新启动电脑出现无法启动系统。
电话听到这里基本上可以完全断定是有由于同时两个硬盘报错导致RAID 5磁盘阵列瘫痪(解释:因为RAID 5磁盘阵列不能同时有两个硬盘出错,如果同时两个出错必定导致阵列瘫痪)。像上面描述的情况可以通过阵列配置的方法补救,由于其中一个硬盘是人为误拔导致RAID 5瘫痪的,表明该硬盘是没有完全损坏,可以将该硬盘通过配置阵列,将其强制上线,让瘫痪阵列重新工作起来。于是我电话让孙先生将误拔的硬盘将其强制上线,可是电话里传来了服务器硬盘强制上线是成功了,但是服务器还是无法进入系统,出现“无法找到启动设备”。
“强制上线不行???”如果是两个硬盘同时损坏,一个误拔的话,按照道理只要将误拔的强制上线就行了呀,而孙先生刚才描述第一个损坏硬盘报错的时候服务器也照样能启动的。看来只能上门去解决了,瞎猜想不如实地去看一下。
于是带着数据恢复检测工具前去孙先生单位,是服务器的数据中心,哇塞,都是服务器,听到瘫痪服务器“嘟嘟….”地叫。按“Ctrl + M”经入阵列信息发现通道0的ID 1硬盘FAIL,表明该硬盘是已经损坏,而ID 0号硬盘已经强制上线,根据现在情况如果先坏的硬盘是2号硬盘的话,这样服务器应该系统可以完全启动的呀。于是用自带的检测软件启动,底层查看硬盘MBR和文件系统BOOT分区,令我意想不到的是检测阵列的第一扇区发现都是0,搜索硬盘分区表,发现硬盘的分区表竟然到了128个扇区,而刚才看阵列信息条带是64K的,也就是硬盘分区表已经变成了第二个硬盘的信息上去了,而第二个硬盘又是损坏,也就是分区信息阵列异或出来的数据。但是按照正常的分析来讲分区表应该在硬盘的第一个扇区上的,则完全可以说明1号盘和2号盘肯定是掉换了。电话咨询DELL工程师描述要掉换硬盘的话需要对阵列操作,如两硬盘要掉换,除非需清空阵列,此时DELL工程师声明这样数据无法保证能恢复,并表示该数据是很难恢复的。
考虑到孙先生单位的服务器数据非常重要,于是恢复工作经入瘫痪状态…..
本人建议对Raid 5的5个硬盘做镜像备份,作为数据恢复工程师这是我们首要的步骤,保证数据的安全
其实对我们来讲只要这5个硬盘的备份就可以通过我们的自主研发的RAID恢复软件将磁盘阵列的5个硬盘进行数据整合将数据就可以完全读出来。对硬盘数据的整合,数据完全恢复,检测该服务器是LINUX 操作系统,文件系统是EX3和SWAP分区+加之后台数据库是ORCAL 9I的。想想ORCAL数据库移植是非常地复杂,加之用户需要恢复系统启动状态,以便减少他们的服务器配置麻烦,于是决定重新去修复服务器。
已经检测发现1号盘的数据应该是2号盘的数据掉换,也就是原先坏的硬盘应该是1号盘的,已经完全确定是由于两个盘的顺序颠倒导致服务器无法启动的,决定重新更换位置,但是刚才如DELL工程师所说,硬盘是无法更换位置的,需要清空阵列信息,但数据不能保证。
修复服务器的操作前提:通过RAID数据恢复软件已经将数据完全恢复。加之本人以前操作过一次的,所以对这次的把握还是信心的,清空阵列,重新配置阵列,更换两个硬盘顺序,启动电脑系统能够正常启动,服务器修复成功!
杭州迪特斯数据恢复专家-汪工
2009-04-12
|