PC >障害例 >起動時、 終了時 >RAID OS >RAID 5 サーバ が、起動不可 >

( 2019.11.24. 更新 )





● 現場 ●
 IJ ステンレス 加工 様 : KG市
● 機種 ●
 DELL : PowerEdge 830
 Windows Srv Std 2003 1-4CPU 5Clt ( SP1 )
● 仕様 ●
   ↓ 以下のHDD × 4台
 Maxtor : ATLAS 10K V、3.5 SERIES、 146GB、 Ultra320 SCSI
   ↑ SCA80 ( = ピン に 電源 込み )
● 症状 ●
 「 LANブート画面 → F1 + F2 の 選択 画面 」 を 繰り返す
 フロント・カバーをはずすと 4 台のHDDスロット中、2 台 ( = 0 + 3 ) が オレンジ点灯 = 異常
   ↑ 残り 2 台 ( = 1 + 2 ) は 緑点灯 = 正常
 ユーティリティ画面で見ると 0 + 3 = 「 FAIL 」
   ↑ 正常な 1 + 2 = 「 ONLIN 」
 [ 1 ]. 起動時 [ F10 ]
 [ 2 ]. [ Ctrl ] + [ M ]
 [ 3 ]. [ Configure ]
 [ 4 ]. [ Easy Configuration ]
 HDD × 1台が不能になったあと、短時間で HotSpare も不能になったようだ
   ↑ 考えてみれば、使用年数は ピッタリ 同じなのだから、HDD × 2台が ( ほぼ ) 同時の クラッシュ は ありうる障害だ
● 処置 ●
 HDDを 1 台ずつ Regene
   ↑ 「 SCA80 → 68ピンSCSI変換アダプタ 」 を 利用して
 マザーのユーティリティ画面で、HotSpare に 強制マウント
   ↑ その現場では HotSpare = フィジカル 3 だった
 OSディスクで起動し、chkdsk して 復旧
● 手順 ●
   ↓ アラーム が うるさいので、作業中は 消す
 PC >機種別資料 >DELL >PowerEdge 830 >
 HDDを集合させている基板のコネクタ ( = 通信 + 電源 ) を抜き、他HDDが通電しないように 準備
 障害HDDを抜き、「 SCA80 → 68ピンSCSI変換アダプタ 」 を 装着
 「 RiteUp 製 : RAD07 」 を 使用
   ↑ ジャンパなしで
 HDD集合基板と RAID用SCSIボードをつないでいる、68ピン用ケーブルを抜く
 HDD 単品と 単品用 SCSIボードとを 接続
   ↑ 最初から 単品用SCSIボードが挿さっていて ラッキー ( = 使われていなかったが 保守用 … ? )
 HDD Regenerator で 起動
   ↑ RAID の固まりと 単品 HDD の両方が 選択肢に表示する
   ↑ 処置するのは 単品 HDD のほう
 BADがヒットしなくなるまで、何度も ( 再起動して) 処理を繰り返す
 念のため 正常HDDも処理
   ↑ その現場では 実際に BADが ヒットした
 もとの接続に戻して起動しても、障害の HDD は FAIL のまま
    ↓ ユーティリティ画面で フィジカル3 ( = HotSpare = 後から不能になった HDD ) を 強制マウント
 [ 1 ]. 起動時 [ F10 ]
 [ 2 ]. [ Ctrl ] + [ M ]
 [ 3 ]. [ Objects ]
 [ 4 ]. [ Physical Drive ]
 [ 5 ]. ( 該当HDDを選択 )
 [ 6 ]. [ Enter ]
 [ 7 ]. [ Force Online ]
 [ 8 ]. [ Yes ]
 各コネクタを戻し再起動後、普通のWindowsエラーが表示されるようになったら、添付のOS・CDで起動して CHKDSK
10 ( フィジカル 0 を HotSpare にしたら、アラーム設定を 戻す )
   ↓ その現場では 「 サーバに RAID 5 は コリゴリ 」 ということで、RAID 1 サーバ への 切り替えになったが
 PC >バックアップ + データ 移行 >2000 / XP / 2003 >HDD クローン >Server 2003 >HDD クローン ( RAID 5 → RAID 1 ) >




● 過程 ●
 Regeneをかけるが、B×1のまま、カウントが進む(= リペア不可)
 4台装着でも、1台ずつ装着でも、同じ
 SCA80を、PATAかSATA変換して、Regeneできたら
 しかし、なかなか、変換アダプタが見つからない
 あったと思ったら、「SCA80 → 50ピンSCSI、変換」だった
   ↑ PATAは、40ピン
 ないのかも
 BIOSで、RAIDモードではなく、単品HDDモードにできれば、Regeneも利くような気がする
 しかし、原本筐体の設定は、いじりたくない
 筺体をよく見たら、RAID用SCSI基板の他に、単品用SCSI基板も入っている
 使っていないが、保守用か…?
 インターフェースが、68と50なので、「SCA80 → 68変換」アダプタと68コードで、接続
 1台ずつ、Regeneできた
   ↑ RAIDの固まりと、単品HDDの両方が、選択肢に表示する
   ↑ 他HDD + HDD集合基板は、まったく通電していないので、RAID用SCSI基板内の、情報を見ているということか
 Regeneが終わって電源オンするが、障害の0 + 3は、FAILのまま
 ユーティリティ画面からの、強制マウントが必要ということか
 先に死亡したHDDには、マウントしたくないが(情報が古いから)、不能になった日時は記録されているのか…?
 ユーティリティ画面では、不能日時は記録されていない模様
 CD起動系のOSでは、認識しないか、しても未フォーマット
 勘でやるしかないのか
 Regeneでは、0のほうが重症だった
 ユーティリティ画面でも、0のほうが、エラーが多い
 また 常識的に、もともとは 「 0 + 1 + 2 = RAID 5動作 」 で、 「 3 = HotSpare = 新しいほう 」 ではないか
 3のみを、強制マウント
 見慣れた感じの、エラー画面が表示
   ↑ 「次のファイルが存在しないか〜」
   ↑ 「\WINDOWS\SYSTEM32\CONFIG\SYSTEM」
 BartPEでは、ドライブが見えない
   ↑ RAIDドライバが、入っていないから?
 Ubuntu 10.10では、正常に見られた
   ↑ 日付が、不能になった日に、近いファイルも多く見られる
 「フィジカル・ドライブ3の、強制マウント」で、当たりだったようだ
   ↑ 正常起動できるようになったら、フィジカル0を、HotSpareにすると、しばらく安心
10 C:\System Volume Information\、にほとんどファイルがない
   ↑ Srv 2003は、(XPと違い)、レジストリの自動バックアップは、されないらしい
11 添付のOS・CD = 当然、同じバージョンが見つかったので、chkdsk
 エラーが修復されて、OS起動成功




 → 技術検索のトップへ