大惨事
技術部長です。
今日は、先日、当社で起こった大惨事についてお話ししたいと思います。
当社では、業務上共用して使うデータや、各自の使用しているコンピュータのバックアップをネットワーク上のストレージ(ハードディスク)に格納しています。NAS (Network Attached Storage) といわれる装置です。当社では、バッファロー社製のTeraStation シリーズを長く使い続けています。6代目になります。容量不足になったり、速度が不足してきたりしたときに、装置交換・データ移行をしながら、その時の最新型を導入して使い続けてきました。最近使っていたシステムは、TeraStation TS5600Dです。これは使い始めてから、結構、長期間にわたって使い続けてきました。
若干、専門的になりますが、当社ではTS5600DをRAID6という仕様で構築し、NASとして使っていました。RAID6とは同時に2台のHDDが故障しても、データは保全され、作業を続けることができるものです。多くの人が勘違いしているところでもあるのですが、RAIDシステムは「壊れない」システムではありません。「壊れても使い続けられる」システムです。つまり、何とか動作している間に、ハードディスクを交換することで、業務を止めることなく修理が可能であるシステムです。但し、RAID0は、まったく違うものです。さて、当然ながら、RAIDを構築していても装置自体が壊れてしまうと、業務が停止してしまいます。そのため、RAIDシステム自体をバックアップしておく必要があります。当社でも、データの重要性に応じて、毎日、TeraStation に格納したデータを外づけHDDにバックアップをしておりました。バックアップデータを使うことで、業務の停止時間を短くすることができます。また、次の装置へのデータ移行も行うことができます。
先日、出社してNASに格納されているデータを読みだそうとしたときに、ネットワーク上からNASがなくなっていることに気づきました。こういう事態は、実は結構あることで、ネットワーク機器が異常を起こしていたり、あるいは、NAS自体が何か異常を起こすと発生します。
NASを設置しているサーバー室に行って、NAS自体を確認すると、インフォーメーションには、特に異常を知らせるようなものは出ていませんでした。ネットワークのハブを再起動してみましたが、やはり、ネットワーク上で見えるようになりません。
製造元から出ている NAS Navigator というネットワーク上にあるTeraStationを検索するツール使ってみるとNASが検出されます。つまり、装置自体は動作しているようです。そこで、装置を再起動してみることにしました。多くの場合、これで正常化します。結論から言うとこれが大惨事の引き金でした。
再起動しても、ネットワーク上に TeraStation が現れません。次にもう一度 NAS Navigator を使って検出して、TeraStation の状態を確認しました。すると、NASは検出されたのですが、ハードディスクが「未フォーマット」と表示されました。つまり、データが全くなくなっていると表示されたのです。かなりまずい状態であることは間違いありません。
しかし、こういう時のために、バックアップを作成しているわけです。業務に必要なデータは、毎日バックアップしていますから、それを取り出して一時的に共有しておいて、装置自体の修理あるいは交換を行うことにしました。次にバックアップデータを確認して、胃が冷たくなりました。バックアップデータが破損しているのです。
こういう時は、何とかしようとして装置を触ってはいけません。我々がもっているツールや機器では、データ復旧は不可能です。直ちにシャットダウンして、データ復旧の専門業者に依頼をする必要があります。業務が停止してしまっていますから、なるべく急いでデータ復旧をしてもらわなければなりません。ネットを検索して、装置を持ち込むことができる業者を探しました。大阪第3ビルにオフィスを持っている「Quickman (https://www.quickman-pc.com/)」という業者が見つかり、電話で確認したところ、その日のうちに装置を診断することができるとのことでした。すぐに、異常をおこしたTeraStation をカバンにつめて、第3ビルのオフィスに向かいました。
状況の説明をおこないデータ復旧を依頼しました。業務停止時間を可能な限り短くする必要があるので、高価ではありましたが「特急サービス」を依頼しました。このサービスでは、データ全体の復旧の前に「最低限」必要なところを先渡ししてもらうことができました。データ復旧は絶対・完全にできるというわけではないので、「言質」を与えるようなお話はありませんしたが、担当者と話をしている感触では、かなりの確率で復旧可能であるようでした。まずは、特急サービスで必要最小限のデータフォルダを伝えデータを先渡ししてもらうように依頼しました。もちろん、ここで「正式発注」をし「費用の支払い」を行います。
オフィスの業務は、通常、19時までだったのですが20時まで延長して、先渡しデータを渡してもらえることになりました。
結果を言うと、データ回収はうまくいって、必要最小限のデータは事故当日の20時に回収できました。翌日の土曜日に業務データの仮共有を行い、月曜日には業務を再開することができました。実質的に、1日の業務停止ですんだことになります。その後、残りのデータも4日後にはすべて回収することができました。
バックアップを道連れにRAID6の装置が故障するなど、大惨事以外の何物でもありません。Quickmanの担当者から、TeraStation の状態を聞き、何が起きていたのかを推測することができました。次のNASとバックアップシステムを構築する上で大変参考となりました。これについては、次回にお話しさせていただきたいと思います。
では、ご安全に。