下载中心 | 网站地图 | 站内搜索 | 加入收藏

安恒公司 / 技术文章 / 安恒公司网管员手记 / 一次RAID5故障的恢复和经验教训

2012-03-25 刘世伟  阅:    下页:
一次RAID5故障的恢复和经验教训
周五,在一台服务器更换CPU后, 启动中,raid5阵列出错, 可能是运气太差的原因吧, 显示raid5的5个存储设备, 有2个离线了,其中一个硬盘启动时有异常声音,完全损坏了。
首先,不要紧张, 因为硬盘不可能完全损坏, 数据还都在盘体上, 给硬盘声音异常的硬盘更换了一个线路板后,硬盘修好了, 然后(-S)把阵列停止,重新(-A)建立,重新(-R)运行,
阵列开始recover, 到10%左右,又失败了, 还是2个分区离线, 屏幕有大量的硬盘读取错误。 看来还要先修复坏道, 建立一个脚本, 扫描所有的硬盘, 建立坏道表, 发现2个硬盘有坏道:
sdb sdc  其中sdb 2个块读取错误,  sdc 110个块读取错误,  用dd修复坏块, sdb修复一个, sdc修复40个左右, 剩余无法修复的, 用写0修复, 数据只能丢失了,在阵列recover过程中, 数据应该可以完全修复,

修复完坏快,再做一次磁盘扫描,这次,可以不用badblocks来做了, 因为我们不需要获取坏道表了,  用smartctl 对磁盘进行内部扫描诊断, 并行扫描, 2个小时全部完成。 5个硬盘已经都没有坏道。

然后开始mdadm -R /dev/md2  现在已经recover到93%了, 还有8分钟完成,应该问题不大了。

修复后, 第一件事就是把2个曾经出现过坏道的硬盘更换成新硬盘,不敢再相信它们了。


相关参考文章:
软raid修复 http://anheng.com.cn/news/html/net_admin_blog/raid5_mdadm_fail_recover.html
磁盘坏道修复 http://www.anheng.com.cn/news/html/net_admin_blog/linux_badblocks_online_fix.html


经验教训:
1.磁盘损坏, 不要紧张, 只要不是电机损坏, 都可以通过更换线路板来修复。 2块硬盘同时电机损坏的可能性不大。
2.smart里面的 1 Raw_Read_Error_Rate 寄存器并不可以完全相信。 sdb出现2个坏块,并修复, 这个寄存器的数值还是0
3.一定要进行每月2次的磁盘内部自动扫描,自动报告, 这台服务器就是只定时报告Raw_Read_Error_Rate ,而没有进行扫描。有坏道没有提前发现。
4.有必要集中管理所有的磁盘的smart诊断, 而不能只靠自动电子邮件报告,不知道nagis有没有smart的模块


后记:
周日上午12点18分, 完全修复,
文件系统          容量  已用  可用 已用%% 挂载点
/dev/md0              5.5G  1.8G  3.5G  34% /
tmpfs                 2.0G     0  2.0G   0% /lib/init/rw
udev                  1.9G  252K  1.9G   1% /dev
tmpfs                 2.0G     0  2.0G   0% /dev/shm
/dev/mapper/vg0-home  1.1T  883G   99G  90% /home

883G的数据都回来了。
下页:   

相关文章
软raid5的容量扩展 - 12-02-09 - 阅读: 219663
linux下使用ssd - 11-03-10 - 阅读: 210145
关于EtherScope II系列网络通Linux系统的几个常见问题(ES2-LAN,ES2-WLAN,ES2-PRO,ES2-LAN-SX/I,ES2-PRO-SX - 10-02-25 - 阅读: 170817
在linux下用bt协议修复远程的文件 - 09-03-13 - 阅读: 136076
linux下利用badblocks程序在线修复坏道 - 08-12-26 - 阅读: 166708
一次软raid5上面的lvm的恢复过程 - 08-11-04 - 阅读: 159587
Hp 激光打印机 P1008在linux下的驱动 - 08-01-16 - 阅读: 202910
linux下的视频设备的复用 - 07-12-21 - 阅读: 125428
多款设备采用Qtopia软件,奇趣科技统领VoIP设备Linux开发平台 - 07-12-17 - 阅读: 191303
debian下的无盘linux系统安装要点 - 07-12-09 - 阅读: 170299
linux下的后门检查程序rkhunter和杀毒程序clamav - 07-04-22 - 阅读: 245786
linux下读写ntfs分区中文编码问题 - 07-03-11 - 阅读: 180100
linux下的DV磁带视频采集和dvd刻录 - 07-02-13 - 阅读: 191963
linux内核虚拟机 kvm - 07-01-05 - 阅读: 249878
linux下raid5磁盘阵列实施 - 06-03-13 - 阅读: 244156
linux在安恒公司的应用 ---安恒网管员手记 - 06-01-16 - 阅读: 293225
debian下应用raid5提高数据安全性--安恒网管员手记 - 05-05-02 - 阅读: 264494
打印机共享器跟linux的连接 --安恒网管员手记 - 05-04-20 - 阅读: 276803
Tcpdump命令的使用与示例——linux下的网络分析 - 05-04-08 - 阅读: 410330
Linux下的网络协议分析工具-tcpdump快速入门手册 - 05-04-07 - 阅读: 348110

Email给朋友 打印本文
版权所有·安恒公司 Copyright © 2004   3g.anheng.com.cn   All Rights Reserved    
北京市海淀区首体南路9号 主语国际商务中心4号楼8层 (邮编100048) 电话:010-88018877