RAID5障害で最大の恐怖はバッドストライプ - treedown’s Report

treedown’s Report

システム管理者に巻き起こる様々な事象を読者の貴方へ報告するブログです。会社でも家庭でも"システム"に携わるすべての方の共感を目指しています。

※https化しました。その影響でしばらくリンク切れなどがあるかもしれませんが徐々に修正していきます。 リンク切れなどのお気づきの点がございましたらコメントなどでご指摘いただけますと助かります。

RAID5障害で最大の恐怖はバッドストライプ

バッドストライプという言葉をご存知でしょうか?
今回はRAID5でバッドストライプが発生したため一苦労してしまった、というご報告です。

f:id:treedown:20150912022740p:plainOh No…
※画像はイメージです。本文とあまり関係ありません。

それは結構以前の夜、家で夕飯後に携帯に連絡が来ました。

RAID5(+ホットスペア)のサーバ筐体で障害検知とのことです。
障害内容は…ハードディスク異常2台です。

  • HDDスロット3がオレンジ点滅
  • HDDスロット5がオレンジ点灯
  • システム・エラーLEDがオレンジ点灯
  • Light PathパネルのDASDランプがオレンジ点灯

6本中1本のHDDドライブが故障、交換が必要です。
点灯しているHDDスロット5(オレンジ点灯LED)が障害ディスクとして認識し(ホットスペア適用で)切り離し済みのようです。
HDDスロット3がホットスペアドライブでパリティから再構築している(オレンジランプ点滅)状態でディスク交換自体は、RAIDリビルド(再構築)完了後でないと交換できない状況です。
ふむふむ、いつものディスク交換作業ですね。ホットスペアへの切り替えも動作しているし、、、と正直この時点では高をくくってました。


さっそくサーバ保守サポートに連絡し対処依頼です。

対処のためモバイルからリモートでRAIDログの取得と送付を実施し、HDD交換の手配と同時にログ分析を実施してもらいました。
その結果…
ログを確認してもらった結果として、LEDで示されたハードディスク障害以外で
「バッドストライプ」
と呼ばれるデータ損傷も同時に発生していることが判明しました。

ここから"おおごと"が始まります。

説明によると、
ログにはスロット0番ハードディスクにて、「Medium Error(ハードディスクセクターエラー)」が現段階で複数回記録されており、 スロット3番への回復処理中にスロット0番のエラーが影響し、この「バッドストライプ」が発生した可能性が考えられます。
とのことです。むむむ。

で、0番は故障LEDは点灯も点滅もしていません。
故障ディスクとして認識していない(バッドストライプは故障と認識しないデータ破損が発生するそうです。)ので、当然のことながら稼働中です。
「バッドストライプ」が発生すると、

  • OSの稼動が不安定になる。
  • アクセスできないファイル・データがある。
  • アプリケーションが起動しない。

など、サーバとして正常に稼動できないことがあります。

今回はHDDスロット5番の故障に伴いHDDスロット3番のホットスペア切替中にHDDスロット0番でバッドストライプが発生、故障のHDDスロット5番ディスクは正常動作品に交換で保守修理作業(いったん)完了、HDDスロット0番のバッドストライプの影響が残っている、という状況になりました。

本記事で「バッドストライプを最大の恐怖と題している」のは、マネジメント機能でログを収集し解析しなかったらバッドストライプによるデータ破損、という実害は予見できなかった、という点です。
気づかないうちに時間の経過とともにどんどんサーバ内のデータは破損していく、ということになります。これではバックアップタスクをいくら実行してデータ保全を図ろうとしても「延々と破損したデータを粛々とバックアップする」ことになってしまい、最悪気づいた時にはサーバデータが破損でロスト⇒復旧しようにもバックアップデータも破損データをバックアップしているからロスト、結果何も復旧できない、というトンデモナイ結果を迎えてしまいます。
備えていた保護技術はすべて無効化され、気づかないうちにデータがちょっとづつ失われてゆく、個人的には最大の恐怖だと思います。

この「バッドストライプ」を回復・修復する為には、論理ドライブの再作成・データの再導入が必要となります。

そのため、この後追加で必要となる対処は、まずはデータバックアップ、そののち、既存の論理ドライブを削除した上でスロット0番ハードディスク交換し、論理ドライブの再作成・データの再導入を実施することになります。

問題のスロット0番ハードディスクを手動でホットスペアと入れ替え0番をホットスペア化して正常動作品に保守交換する、という方法はどうか質問しましたが、
「バッドストライプ」が発生している影響により、RAID管理ソフトウェアの操作ができなかったり、サーバーが正常に稼動できないことが考えられる為、 その方法で正常に完了できるかは、実施してどうなるか(運を天に任せた)という確認となってしまいます、と不完全復旧を示唆する回答でした。

要するに解決策はオンリーワン。RAID再構成してパーティション切り直して、OS再インストールってことです。
なぜオンリーワンかと言えば、はっきり断言されたのが、
「論理ドライブの修復作業前にスロット0番のハードディスクを交換しますと「バッドストライプ」によるデータ損傷が拡大しますので推奨いたしません。 」
こういうことです。

バッドストライプがツールで可視化できない障害のため、おためごかしで中途半端な対処でクローズすれば必ず後々サーバ障害・停止&データロストで憂き目に遭います。
がんばりました。
データのバックアップにはかなり時間が掛かりました。(3営業日程度)

そののち、サーバデータ自体は消去可能な状況になったので対処を実施しました。

ちょこっと書くと

  1. RAID構成を初期化してHDD-0番の交換を実行する
  2. RAID構成をRAID-5で再構成する
  3. リビルド実行中にOSのインストール可能なのでWindowsServerをインストール
  4. 復旧!


今回の対象サーバはハードウェアのマネジメント機能にあるログ取得で、バッドストライプ発生を知ることができましたが、安価な家庭用NASではこれを知ることはできなかったでしょう。(安価な機器では、このレイヤーをカバーできるマネジメント機能もないしログ機能もないです。)
だって、バッドストライプが発生したHDDは故障ランプが反応してないのです。
RAIDとは複数のディスクをつなげて1つのボリュームを使うテクノロジですから、1台の問題は全データに波及します。
今回でいうバッドストライプは安価な機器では可視化できないと考えられますので、見えないということは故障と判別したディスクだけの交換でもなおRAID全体としての安定性が損なわれている(かつデータを失う可能性がある)状態で稼働させることになります。

やはり、NASといえど記録されているデータが重要なのであれば、バックアップは重要です。
※PR※ぜひ本ブログの「小規模な共有フォルダのバックアップなら安価に用意しましょう。 - treedown’s Report」を元にバックアップ計画をお勧めします。

もしRAID5障害でHDD交換を実施したにも関わらず、それ以来NASの安定性が損なわれている方、もし居られましたら、このバッドストライプを疑ってみるのも一考の価値があります。
ただし、安価なNASでは

  1. データバックアップ
  2. ハードディスクを全台取り外す
  3. 1台づつディスクチェック
  4. ディスクチェックで問題があったディスクを交換
  5. ディスクチェッククリアしたディスク同士で再度RAID構成
  6. RAID再構成後、フォーマット
  7. NAS再構築(とデータリストア)

と、なかなか手順がヘビーです。

書いてから思いましたが、安価なNASなら買い替えも検討の余地ありですね。
で、買い替えてデータ移行後の余った方(古い方)のNASをバックアップ用ストレージとして活用する場合には上記の手順でディスクを1台1台丁寧にチェックし、RAID再構成から実行する、という手順をお勧めします。

RAID5の見えない障害、もしRAID機器が原因不明な動作不良に悩まされている場合には疑ってみると復旧のきっかけになるかもしれません。