Q.コンティンジェンシープランの策定について

投稿者名:やまざき

本年度に入ってから、事業を揺るがすような障害や災害が続いています。
東日本大震災による災害や電力問題、某銀行や某通信会社、某SNS会社等、大規模障害が立て続けに発生しています。

そこで、BCPについても見直す時期に来ているかと思います。
ただ、先々のことを想定しての投資はなかなかできない状況です。

このような状況下では、指揮系統が混乱したり、対応方法が周知徹底されていないがためにトラブルが長期化する恐れがあります。

そこで、コンティンジェンシープランを作成して、いざという時に運用が止まらないようにしたいと考えています。


このような取り組みをされている方がおりましたら、最小限の取り決めでありながら有効な策定方法や運用ルール等の取り決めについてアドバイスいただけないでしょうか。

みんなの回答一覧

やまざきさん

行動ベースですが、災害時には参考になりそうな有志の方が作成したモノがありました。参考になればと思います。


ーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
災害にあったITシステムを操作しなければならない人が知るべきこと v0.1

1.目的
  本文書は、震災などの災害発生後に、ITシステムのユーザがシステムの復旧や
 再起動を検討する場合にチェックするべきことを記しています。
  被災したサーバを、再起動するのは本質的に危険なことです。場合によっては
 人命に関わる二次災害を招いたり、存在したかもしれない障害からの復旧可能性
 を失う可能性が高いものです。サポートサービスのプロフェッショナルの支援を
 受けることは必須だと考えてください。
  しかしながら、プロフェッショナルの支援を待てずに起動することが要請され
 るシステムも存在することと思います。そうした状況下で、可能な限り二次災害
 のリスクを小さくしたり、あるいは「拙速な復旧を断念する」という勇気ある決
 断をするための助けとなるように本文書は作成されました。

2.この文書の限界と、責任
・この文書の初版は、高橋優亮を中心とした有志が作成した文書です。高橋優亮や
 有志の所属する団体等の公式な見解を示すものではありません。
・被災環境におけるITシステムの操作や起動は、火災などの人命に関わる二次災害
 を引き起こす可能性があります。
・被災環境におけるITシステムの操作や起動は、もしかしたら存在したかもしれな
 い、障害からの回復可能性を失うなど、様々なリスクがあります。
・一般にユーザによる災害復旧操作は、状況を悪化させることの方が多いものです。
 この文書はユーザによる自力復旧を推奨するものではありません。むしろ、自力
 復旧しないことを強く推奨しています。
・本アドバイスに従ったとしても、リスクを完全に回避することはできません。
 可能な限り、サポートサービスのプロフェッショナルにサービスを要請してくだ
 さい。
・サポートサービスのプロフェッショナルであっても、リスクを0にすることがで
 きません。プロフェッショナル以外の人が作業することはリスクを高める行為で
 あると理解してください。
・色々な事情でプロフェッショナルのいない現場でシステム復旧を試みなければな
 らない人たちの支援情報となるように作成された文書ですが、復旧対応は、元来
 個別のITシステムとその状態毎に対応方針を決定すべきものです。一般論を記載
 していますが、読者の個別のITシステム環境に合致しなかった場合、皆様のITシ
 ステムに取り返しの付かない悪影響や人命に関わる二次災害を引き起こす可能性
 もあります。
・この文書には間違いがなくなるよう努力をしていますが、間違いがないことを保
 障するものではありません。
・この文書を読んだり、書いてあることを実行したりすることによって引き起こさ
 れた一切の問題について、この文書の著述に関わった個人や法人、あるいは配布
 や蓄積、交換にに関わった全ての個人や法人は免責されるものとします。
・なにが起こっても誰も一切の責任を負いません。恐縮ではありますが自己責任で
 のご判断をお願いいたします。
・繰り返しますが、この文書の内容は「無保証」で読者に提供されています。

3.著作権と再配布
 本文書は、GNU Free Documentation License (GFDL)バージョン1.3か、それ以降
 の任意のバージョンに基づいて、自由に改変と再配布が可能です。
 ただし、2節の「この文書の限界と、責任」の内容については、その意図を変更
 するような改変を禁止します。これはGFDLにおいても認められています。


4.著者と謝辞
●改変履歴
 v0.2 2011.03.13 高橋優亮 

●v0.2の謝辞
・この文書は、2011.03.11に発生した「東北地方太平洋沖地震」の被災者に対して、
 IT技術者ができることをはないかと、ブログメディアPublickey
 ( http://www.publickey.jp/ )編集長の新野淳一氏の示唆に基づき作成されたも
 のです。氏のアイディアがなければ存在しなかった文書です。氏には深く感謝を
 申し上げます。


5.災害にあったITシステムを操作しなければならない人が知るべきこと

特に重要な項目については【★重要】の見出しをつけています。

5.1 全てのシステムについて
●全てに共通する基本
・【★重要】自分で復旧しないでください!
  被災システムの操作はプロフェッショナルに依頼してください。一般の人が操
 作すると、多くの場合状況が悪化し、回復不能になるケースが増えます。
  たとえば衝撃を受けてヘッドクラッシュを起こしたハードディスク装置は、電
 源投入して回転させると破損が拡大し、データ復旧も難しくなります。
  他にも、細かいちりと水分などの影響でショートが発生し機器から火災が発生
 することもあります。炎上し焼け落ちたシステムの復旧はほとんど不可能です。

●目的
・そのシステムは本当に「今」復旧することが必要ですか?
  「念のため」や「心配だから」または「可能なら」という状況ならば、プロの
 到着を待ってください。あなたがさわることで、状況が悪化します。
  二次災害で人命が失われるかも知れないリスクがありえる、という状況の元、
 本当に「今」復旧することが必要か判断してください。


5.2 サーバシステム(サーバルームやデータセンタのラックシステム)
●意義
・そのITシステムを利用するユーザや外部システムの復旧予定を知っていますか?
  あなたのサーバだけ先に復旧しても、たとえばユーザや外部システムの復旧が
 数週間先というような状況下だったらどうでしょう?プロを待たずに「今」復旧
 する必要がありますか?

●事前の装備確認
・【★重要】静電気を放電できるような対策がされた安全靴や、静電気を発生しに
 くい衣料はありますか?
  平常時と異なり、現場にはガスや可燃性の粉塵などが存在する場合があり、静
 電気が爆発事故の原因になる場合すらあります。最低限、静電気対策ができない
 なら、復旧に向かうべきではありません。
・安全靴、ヘルメット、防護手袋、防塵ゴーグル、懐中電灯、工具などの準備はあ
 りますか?
  装備が足りなければ、それだけ危険が増します。どれだけ備えても危険は0に
 なりませんが、可能な限り装備を整えてください。
・【★重要】通信路の確保
  被災環境では、通信路の確保は難しいかも知れませんが、可能な限り、外部と
 連絡がとれるように準備してください。Twitterやmixiだけでも使えれば大違い
 です。
・【★重要】同行者の確保
  単独行動は避けて、複数名で現場に入ってください。状況を見張る担当と復旧
 作業を行う担当と、作業を分担して、常に安全を確保するよう努めてください。
・通常作業に必要な装備
  被災状況であろうがなかろうが、たとえばネットワーク機器やストレージ機器
 のコマンドラインインターフェースを操作するのに使うノートPCやシリアルや
 Ethernetのケーブル、各種ジェンダーチェンジャー、データ吸い上げに使用する、
 予備のストレージ機器などを準備します。これらがないと、結局手も足も出ず、
 徒労に終わると言う結果になりがちです。

●ラックに近づく前に確認すべきこと
・【★重要】サーバルームやデータセンタの建屋の安全性に問題はありませんか?
・【★重要】サーバルームやデータセンタに漏電などによる火災のリスクはありま
 せんか?
・【★重要】天井、床、壁などに、大きな損害や亀裂ははありませんか?
  家屋や建屋の危険度の判定については、行政や専門家の指示に従ってください。
 立入や接近が禁止された場所での作業は論外です。
  たとえ禁止されていなくとも、建屋や設置場所が危険と思われる場合は、安全
 を優先して、起動は諦めてください。たとえあなたの命を賭して再起動しても、
 建屋が壊れたらシステムも一緒に粉々です。
・【★重要】サーバルームからの緊急退避路を常に意識して行動してください
  余震や類焼などで、それまで比較的安全だったところが、急激に危険になる場
 合があります。常に退避路を2方向以上確認し、常に意識してください。退避路
 が1方向しかないと想定される場所には最初から入ってはいけません。
  設置場所が危険な場合は、安全確保を優先して復旧は諦めてください
・【★重要】あなたは、夢中になると周囲が見えなくなるタイプではありませんか?
  どんなに作業に集中していても、状況が変われば、即座に退避する必要がある
 のが被災地です。ユーザが自社のシステムを復旧しようとすると思い入れが強す
 ぎて、周囲が見えなくなるリスクが高まります。複数名での作業を重ねて推奨し
 ます。
・空調は機器の動作を保てるレベルで動作していますか?
  システムが復旧しても、サーバルームの密度や空調の程度によっては、しばら
 くすると熱がこもって、熱暴走や故障が発生するような状態になるかもしれませ
 ん。
  適切な空調が得られなければ、長時間システムを動作させることはできません。
 データのバックアップ採取のみにするなどプランの変更を検討してください。
・そもそも電気は来てますか?
  電源供給がされていない場所で復旧を検討することはナンセンスです。電源回
 復を待ってください。
・【★重要】漏水はありませんか?
  周囲を見渡して漏水の可能性を確認してください。漏水があれば漏電のリスク
 があります。電源投入をしてはいけません。安全に作業できるようなら、電源ケー
 ブルを外したり、主幹ブレーカーを落とし、火災予防することも検討してくださ
 い。
・【★重要】異臭はありませんか?
  都市ガスやプロパンガスには特有のにおいがつけてあります。これらのガスに
 は毒性はありませんが、爆発のリスクがあります。即座に、静電気火花を起こさ
 ないように細心の注意を払って撤収してください。
  都市ガスやプロパンガスの以外でも、異臭は、有毒ガスの発生や、火災の前兆
 を示す場合があります。安全かつ迅速に撤収をしてください。

●ラックの前に立ったら
・【★重要】ラックに変形はありませんか?
  変形の程度にもよりますが、ラックが変形するほど大きな衝撃を受けたシステ
 ムは火災を引き起こすなどの可能性が高く、起動は危険です。電源ケーブルを抜
 いて、ブレーカーを落としプロフェッショナルの到着を待ってください。
・【★重要】切断された電源ケーブルなど、危険なものはありませんか?
  感電や傷害のリスクを排除できない場合はシステム起動をしてはいけません。
 特に直流送電のデータセンタでの感電は致命的な結果になります。「直流送電」
 と言われて意味の分からない人は、データセンタの復旧に向かうべきではありま
 せん。
・【★重要】現場が粉塵でもうもうとしていたりしませんか?
  粉塵爆発のリスクがあります。建材の多くは不燃物ですが、現場で粉塵が可燃
 物か不燃物かを判定することは不可能です。静電気に注意して、即座に撤退して
 ください。
・ラック自身の固定に問題はありませんか?
  ラックの固定が外れて、建物に安全に固定することができないような場合、折
 角システム復旧しても、余震などがあればより状況が悪化する恐れがあります。
 システム起動より、ラックの固定を優先してください。
・LANやファイバーチャネルのケーブルが伸びてしまっていませんか?
  阪神淡路大震災の時、多くのシステムがラックが動いてしまうことにより、ケー
 ブルが伸びたり、内部で断線することで通信不良が発生しました。ケーブルが伸
 びてしまっている場合、無理に復旧しようとせず、予備が確保できてから作業す
 るのが望ましいでしょう。

●電源を入れる前に
・【★重要】筐体に大きな衝撃を受けた跡などはありませんか?
  衝撃を受けたことが明らかな場合、まずハードディスクの障害を疑います。
 故障したハードディスクに電源を投入するとデータ復旧が困難~不可能になる可
 能性が高まります。起動しないことをお勧めします。
・【★重要】筐体内部に粉塵や液体の侵入の形跡はありませんか?
  空気中に粉塵がなくとも、機器が粉塵にまみれている場合は、内部配線でトラッ
 キング漏電が発生する恐れがあります。
  また現在乾燥していても、一度でも濡れたり水没した痕跡のある機器をそのま
 ま電源投入してはいけません。乾燥しても水に溶けていたものが結晶化して導電
 性の皮膜ができてショートすることがあります。
  いずれの場合でも、可能ならば電源ケーブルを抜いてブレーカーを落としてお
 きましょう。
・【★重要】電源ケーブルやコンセントやプラグに損傷はありませんか?
  変形して中途半端にしか刺さらないようなプラグや、強い衝撃を受けて、内部
 のより線の一部が断線したようなケーブルを使ったりすると、発熱して火災にな
 ることがあります。
  訓練を受けていない一般の人が「ケーブル内部のより線の一部断線」などを判
 定することは難しいので、ダメージを受けていると思われる場合は電源を入れて
 はいけません。
・機器のラックへの固定は緩んでいませんか?
  機器が正しくラックに固定されているか、固定状態を確認してください。緩ん
 でいるようなら、きっちりと固定してください。固定が不十分な状態では、起動
 後に障害が拡大する可能性が高まります。
・【★重要】電源投入手順や、起動時の障害確認手順を理解していますか?
  システムの起動手順を理解しないまま「電源入れればなんとかなるだろう」と
 起動すると、大抵望ましくない結果になります。また、起動シーケンスに障害が
 発生した場合に、対処できるスキルがない場合や、正常に起動したかどうかの判
 定を行うことができないようなシステムは、最初から起動してはいけません。
・【★重要】システムの停止手順を理解していますか?
  復旧を断念して、システムを停止する場合に、正しい手順を理解していますか?
 OS以外にもミドルウェアやサービスやデーモンやアプリケーションに対しても、
 正規のシャットダウン手続きが必要な場合があります。
  止め方の分からないシステムは起動してはいけません。

●【★重要】電源投入順序
システム構成によって、正しい手順は異なりますが、多くのケースに該当しそうな
手順を紹介します。

0.計画停電が想定される地域では、作業中に停電時間帯に突入しないよう余裕を
 持って計画を立ててください。
1.電源供給の確認をします
  UPS装置がある場合はUPS装置を調べ、UPSやUPSのバッテリーが正常に起動して
 いるかを確認します。
  電源供給コネクタ類を一通りテスターであたり、電圧異常などがないかを確認
 します。電圧異常があったら電源ケーブルを抜いて、起動は諦めてください。
2.まず外部につながるネットワーク機器から
  サーバシステムは、ネットワークにつながらないと役に立ちません。ネットワー
 クが障害を起こしているようなら、システム復旧の意義は薄れます。
  外部に近いほうから順次確認していきます。たとえば、ONU→ボーダールーター
 →Firewall→DMZ用スイッチ、といった順です。
  ネットワーク機器から電源投入するのは、ハードディスクなどの衝撃に弱い部
 品を使っているケースが少ないため、最初に電源を投入する機器として適切だか
 らです。
  しかし、ロードバランサー、ファイヤウォール、L4~L7スイッチ、SSLアクセ
 ラレータといった製品の中にはハードディスク内蔵の機器もあります。このよう
 な機器は、他のネットワーク機器の正常起動確認の後にします。
  ネットワーク機器が起動したら、外部との接続性を検証します。正常動作する
 持ち込んだノートPCなどから、pingやtracert(traceroute)、Wiresharkなどを用
 いて必要なシステムとの接続ができるか、実用的な通信は可能かなどの確認を行
 います。
  ネットワーク接続が確立できなければ、データやシステムのバックアップ作業
 などへプラン変更を検討します。
3.裏LAN用スイッチや、FCストレージ用のスイッチの電源を投入し動作を確認し
 ます
4.【★重要】ストレージ装置の電源を入れるかどうか考える
  ハードディスクの故障は、外観からは分かるとは限りません。多くの場合、ク
 ラッシュしていても外観には何の変化もありません。
  しかし、クラッシュしている状態で電源を入れると、データ復旧の難易度は一
 気に上がり、取り返しがつきません。
  データのバックアップが不十分なシステムの場合、この電源投入が運命の分か
 れ道になる可能性があります。
  本当に今電源を入れる必要があるか、今一度ここで考えてください。電源を入
 れずプロと相談することを、改めて強くお勧めします。
5.決断できたら、ストレージ装置の電源を入れます
  注意深く起動音や、ステータスランプを観察してください。異常が見られたら
 即座に電源を切って、これ以上の作業を諦めて、撤収します。データ復旧サービ
 スを提供している企業と相談してください。
6.最後にサーバ機器の電源を投入します
  いきなり起動してよいかどうかは、システム構成によります。必要なら、セー
 フモードで起動したり、シングルユーザモードや、ROMモニタなどで診断を実行
 するなど、システムの健全性を確認してください。
  また、複数サーバで構成されるシステムでは、サーバ間の起動順序が問題にな
 る場合もあります。たとえば、認証サーバ→アプリケーションサーバ→Webサー
 バのようなケースや、ある種のクラスタ構成の場合、本番系を全て起動してから、
 など、サーバ間の起動手順が決まっている場合があります。
  電源投入順が不明な場合もシステムを起動してはいけません。

●無事に稼動/起動していると思っても
・異臭や異音はしませんか?
  少なくとも30分。できれば数時間以上、状況を注視してください。燃えてか
 らでは手遅れです。
・データバックアップやシステムバックアップは無事に存在しますか?
  してなかった方は、可能ならここで採取しておきます。必要なら本番起動前に
 シングルユーザモードや/セーフモードで新しいメディアにデータバックアップを
 してください。
・本番稼動前に、各種ログファイルなどを調べ、必要な復旧処理をしましょう

●小康状態になっても、運用中に気をつけるべきこと
・大きな余震や津波が再び発生した場合のプランはできていますか?
  ここまでたどり着いた方は運良く運用可能状態になりました。おめでとうござ
 います。しかし、もう一度システムがダメージを受けた場合、再起不能になるか
 もしれません。その時にどうするかを計画しておきます。
  たとえば、小康状態の間に、バックアップをしっかりとっておいて、小康状態
 の間はトランザクションやデータベースの更新を禁止し、参照系だけにして、再
 度の障害に備える、などの方針を決めます。

・【★重要】突然の停電が再び、何度も起こりえます
  計画停電だけでなく、被災地の電源供給は不安定になりがちです。突然の電源
 断があった場合にも耐えられる運用プランを検討してください。
  UPSのバッテリ残量の確認や、シャットダウン指示が正常に動作するかのテスト
 も実施してください。
  運用を継続する場合でも、計画停止があれば何度もシャットダウンが必要にな
 ります。シャットダウンを繰り返すことはしばしば障害の原因になります。デー
 タの吸い上げができたら、不要不急のシステムは休止することを基本としてくだ
 さい。
  バックアップを活用して、IaaS事業者のサーバで仮復旧するなどの対策も有効
 です。是非移行を検討ください。

●途中で退避するときは
・【★重要】復旧を断念するなどで、退避する時は、機器の電源をOFFに
  安全に退避できる時は、機器の電源をOFFにしたり、電源ケーブルを抜いた
 り、主幹ブレーカーを落としたりするようにしてください。
  また、電源供給が不安定な時はサージやスパイクと呼ばれる異常高電圧が発生
 しやすく、機器故障や火災の原因になります。また漏電が発生した場合の事故を
 防ぐためにも、なるべく電源を広範に落としてください。

 【★重要】ただし、可燃性ガスなどの存在が疑われる時は、これらの操作で起こ
 る電気火花が引火の原因になる可能性がありますので、なにもせずに速やかに撤
 収してください。

5.3 クライアントシステム(デスクトップやノートPC)について
●全般
・現場に入るまでの危機管理などは5.2サーバシステム編と共通しています。
 安全を確保して作業してください。
・ローカルハードディスクの内容
  クライアントシステムでは多くの場合、復旧すべきものは、ローカルハード
 ディスクの内容に限られます。データを救い出すことを中心に検討します。

●ノートPC
  軽量なノートPCは、現場から本体ごと回収して、安全な場所に運んでから、
 順に動作確認やデータの取り出しを行いましょう。ユーザの所在が不明でログイ
 ンのパスワードが不明な場合は、それぞれのOSごとに回復手順があります。ただ
 し、HDD暗号化を実行していると、データの回復が不能の場合もあります。

●デスクトップPC
  本体ごと安全な場所に運べる場合はノートPCと同様にしてください。
  ハードディスクの暗号化をしていない場合なら、本体のサイズや筐体の構造と
 現場の安全環境と、作業者のPC分解スキルと相談しながら、筐体をあけてハード
 ディスクユニットだけ取り外した方が、安全かつ大量に短時間に運び出せる場合
 があります。
  その場合、ハードディスク本体に、どのPCから取り外したのか書いておくと、
 後のデータ吸い上げ時に役立ちます。


5.4 and more... to be written

ITILv13さん

コンティンジェンシープランは具体的にどんな行動をとるか、について記載するものですので、行動の順番が細かく設定されていることが必要だと思います。このため、何をリスクとし、どれを最優先するか、その行動の順番を決めておくことがポイントだと思います。
と、書きながらコンティンジェンシープランを作った経験はありませんが。。。。

回答する

カテゴリから調べる

タグ