ニューノーマルで悩む管理者の夜

第参拾一夜 システム障害で悩む管理者の夜

概要

変化を体言するキーワードが、「ニューノーマル」。珍常態を、システム管理者目線でゆるーく語っ ていこうと思います。

 

目次
2023年4月の出来事
4月3日月曜日の悪夢のANA
月曜日の悪夢、NTT(電電)編
さらに、4月4日には Suica も
ライフライン(*2)のトラブルはデジタル社会を揺るがす
故障が発生するのはどんなタイミング
故障と言えば「再発防止」
ニューノーマル時代の「再発防止」

 

2023年4月の出来事

2023年4月、リアル入社式や入学式が決行される一方、IT業界を身震いさせる事件が起こりました。そう、システムトラブルです。今回は、久々にシステム障害をテーマに語りたいと思います。

以前にコラムで書きました「障害系」ネタはこちら。ご参照ください。

第七夜 みずほ障害で悩む管理者の夜
弐拾ニ夜 au通信障害で悩む管理者の夜

 

4月3日月曜日の悪夢のANA

まずは、2023年4月3日月曜日です。全日空の国内線システムに障害が発生、搭乗手続きができなくなる事態となりました。55便が欠航し、153便が30分以上の遅延となりました。

 係員「大変ご迷惑おかけして申し訳ございません。ただいま時間ごとに、ご案内をさせていただいております。ひとまず午後3時59分までに出発のお客様はお荷物のお預けができます」
 羽田空港内では、怒声が飛びまくりました。

このシステムトラブルの原因ですが、全日空は2023年4月4日、4月3日午後に発生した旅客系基幹システム「able-D」の障害について記者会見を開きました。この中で同社は、障害の発端は「able-D」に連なるデータベースが2系統同時にダウンしたことだとしています。
簡単に説明しますと、当該システムはA系(稼働)とB系(待機)があり、それぞれDBが2つあり同期を取っています。A-DB1がエラーでフリーズしてA-DB2も停止し、B系へ切り替えた、という感じです。


<図表31-1 ANAシステム故障>

そして、事後に話題となったのが、データベース管理システム(DBMS)のエラーの原因となったバグ(プログラムの欠陥・不具合)のパッチ(修正プログラム)がリリースされていたにもかかわらず、ANAがそれを適用していなかったこと。「なぜパッチを適用しなかったんだ」と激おこプンプン丸(*1)な方がたくさんいます。でも、パッチ適用って難しいですよね。そのバグは回避できても他に何か影響があることが多いし、動作検証がかなり面倒です。

 

月曜日の悪夢、NTT(電電)編

同じく4月3日には、NTT東日本とNTT西日本で、インターネット接続サービス「フレッツ光」と電話サービス「ひかり電話」の通信障害が発生。東京、神奈川、大阪など16都道府県で、最大44万6000回線に影響が及びました。通信障害は東日本地域では2時間58分、西日本地域では1時間39分という長時間続きました。


<図表31-2 NTT東西の故障>

原因は「加入者収容装置」と呼ばれる装置が同時に複数台、障害を起こしたことによるものです。「特定の装置メーカー(海外)の特定の新機種が、特定の配信サーバーから受信したパケット」を起因に故障したものらしいです。
この特定の機種での一斉故障が発生しますと、外野からは「同じ機種をたくさん入れるな」などと言われることがありますが、機器類などはメンテナンスなどを考慮すると、同じ機種で統一したほうがはるかに楽なんですよね。複数のメーカーの複数機種を導入すると、その保守などのマニュアルが棚にずらっとならぶことになり、かなり面倒です。え?なんで電子マニュアルではないかって? とっさに参照するにはまだ紙のほうが早いんですよ。ま。トリセツは問題発生時にしか見ませんが。

 

さらに、4月4日には Suica も

そして、翌4月4日火曜日です。JR東日本によりますと、障害が発生したのは4日12時10分頃~13時頃で、一部の加盟店でSuicaの電子マネー機能の決済機能が利用しづらい事象が発生していました。
原因は、JR東日本の子会社であるJR東日本メカトロニクスの決済サーバーの一部で故障が発生し、ほかのサーバーで対応していたところ、決済が集中し、一部の決済が利用しづらい状況になっていました。故障した装置は、4日夕方ごろに復旧。一部の加盟店にしか影響は及ぼさず、電車やバスなどの交通機関での決済には影響はなかったようです。
某ワイドショーでも、コメンテーターが「政府も電子決済を推進していますし、それにちゃんと従ってくれている国民がこういうところで裏切られた気になるかもしれないですね」と発言していましたが、カード決済というビジネスの信頼性が揺らいだ事案でもあります。

また、以下のようなサイクルもよく見られる流れですね。

 一部で故障 → 他に代替 → 負荷による処理性能悪化や二次トラブル

今回のANAでのシステム障害もA系ダウンでB系への切り替えもありましたし。

 

ライフライン(*2)のトラブルはデジタル社会を揺るがす

電話回線、航空機の搭乗手続き、そして電子マネー決済。これらのシステムは社会生活を送る上での必須のインフラになってきています。
つまり、このシステムが止まると代替手段がほとんどない、というヤバいシステムです。
「電話が通じない」→「手紙? (ヾノ・∀・`)ムリムリ」「別のキャリア? 今から手続きするの?」
「飛行機に搭乗できない!」→「電車で往けないから、飛行機なんだわ。泳いで海を渡るのか?」
「電子マネー決済不可」→「現金なんて持ち歩いてねーよ」
いろいろと終わってしまいます。
そもそも電子決済については、QRコードやカード決済が普通であり、店員に「現金払いのみなんです」と言われるとその店に入りたくない気分になる時代です。

故障が発生するのはどんなタイミング

この手のシステム障害、発生するトリガーというのは決まっています。いきなりシステム障害が生えるわけではありません。

NO 条件 発生確率
1 今まで順調に動いていたシステムに「修正」が入った場合
2 新システムが稼働した場合 
3 システムに変更はないが、なんらかのイベントなどでトランザクションやアクセス数が増加した場合
4 システムにうっかりヒューマンエラーをかけた場合

 

1.の修正や2.の新システム稼働は、まさによくあるケースです。2.の代表はアノ「みずほ銀行」の合併時のトラブル(2002年4月)です。また、3.は通常時には問題ないが「想定外」のデータ量やアクセスにより「予想外」の動作を強いられたり、処理負荷に陥って、それ起因でトラブルが発生するケース。これも「みずほ銀行」で発生(2011年3月)したことがありますね。

【参考】第七夜 みずほ障害で悩む管理者の夜

4.は故障とは異なるのですが、一応ピックアップしています。レアなケースといえますが、オペレータのヒューマンエラー起因でトラブるケース。近々ではアノ「阿武町市役所4630万円誤送金」は振込の依頼書自体に「1人に振り込む」という記載になっていたのが起因(*3)。さらに遡って、2005年の「ジェイコム株大量誤発注事件」も「61万円1株売り」とすべき注文を「1円61万株売り」と誤ってコンピュータに入力したことから発生しています。システム自体は停止したりはしませんでしたが、トランザクション上問題となるような値のデータが入力された場合、システムに影響を及ぼすこともありえます。

 

故障と言えば「再発防止」

過去のコラムでもテーマにした「au障害」「みずほ障害」などでも行われましたが、この手の生活に影響を及ぼすシステム障害が発生しますと必ず行われるのが「再発防止」。この再発防止ですが、最近のシステム障害のモノは正直あまり効果があるものが見当たりません。まず、抜本的な対策よりは、個別の原因に対する対策のみしか考えていない点、さらに「再発」は防止するが、トラブルは同じ原因もものが発生せず、違うトラブルには効果がない点。
「なぜこんな『再発防止』」しか立案できないんだろう」と考えてみるに、「再発防止」を検討する会議の参加者のスキルや経験が低いか、もしくは第三者で検討する場合には、原因発生組織への忖度が発生しているのではないか、と思います。第三者=本当に無関係の第三者ということはなく限りなく関係者に近い人たちです。通常「再発防止」を検討する組織はそのシステムの運用/開発を担当した重要な関係者であることが多く、劇薬となりうるような対策は講じることができません。
参考までに、過去コラムで提案した対策を以下にまとめました。

みずほ障害 企業文化の変換が必須
au障害 「いかに早く復旧させるか」は人海戦術ではなく、エンジニアのセンス・知識・経験

 

ニューノーマル時代の「再発防止」

「再発防止」よりも、発生したトラブルの影響をどのように極小化するか、復旧時間や影響範囲を最小にするかを真面目に検討したほうが良いと思っています。システムトラブルは今後も必ず発生しますし、新技術が適用されるニューノーマルな時代に、事前に防止策を全て準備するのはほぼ不可能です。スピーディーに復旧できるエンジニアを育成すべき時代なのでしょう。
では良き眠りを(合掌)

「眠れない 夜 君のせいだよ」by アニメ「キテレツ大百科」OP曲/ED曲「はじめてのチュウ」(*4)

    • 商標について
      本コラムに記載されている商品やサービスの名称は、関係各社の商標または商標登録です。文中では、(TM)や(R)を省略しているものもあります。
      引用・参照について
      本コラムで引用・参照した図表や文章については、明示して引用元・参照元を記載しております。
      著作権・免責について
      本コラムの著作権は、著作者に帰属します。本コラムは著者の主観に基づく情報の提供のみを目的としており、本コラムに記載された内容を用いた運用などは、読者の責任と判断においておこなってください。また、記載内容は、執筆時のものを使用しております。

 

*1 2013年2月頃からTwitterにおいて、怒りの感情を表すギャル語「おこ」から派生した言葉。以下のように、下に行くほど怒り度が上がる。
 ・おこ(弱め)
 ・まじおこ(普通)
 ・激おこぷんぷん丸(強め)
 ・ムカ着火ファイヤー(最上級)
 ・カム着火インフェルノォォォォオオウ(爆発)
 ・激おこスティックファイナリアリティぷんぷんドリーム(神)

*2 ライフラインは、1995年の新語・流行語大賞のトップテンに入賞。同年の新語・流行語大賞のトップテンには、「インターネット」があります。時代ですね。

*3 山口県阿武町で発生した「4630万円誤送金騒動」については、「第弐拾夜 ニューノーマルで悩む管理者の夜」の注釈5でも記載。フロッピーディスクの生息が確認された事件でもありました。お役所や地方の銀行では2023年現在まだまだ使われています。
省庁に関して言えば、法令の手続き書類の提出や保管方法などに使う電子記録媒体に、「フロッピーディスク(FD)等の個別の記録媒体を指定する規定」があるためです。
【参考】デジタル庁:フロッピーディスク等の記録媒体を 指定する規定の見直しについてhttps://www.digital.go.jp/assets/contents/node/basic_page/field_ref_resources/f0c4ebf4-bd96-49f3-bd84-cb0653629b25/54d6b1b4/20220830_meeting_administrative_research_working_group_outline_01.pdf

*4 「はじめてのチュウ」は、藤子・F・不二雄ミュージアムが開業された記念に伴い、小田急小田原線の向ヶ丘遊園駅の1・2番ホームの接近メロディとして採用されています。

連載一覧

コメント

筆者紹介

司馬紅太郎(しば こうたろう)
大手IT会社に所属するPM兼SE兼何でも屋。趣味で執筆も行う。
代表作は「空想プロジェクトマネジメント読本」(技術評論社、2005年)、「ニッポンエンジニア転職図鑑』(幻冬舎メディアコンサルティング、2009年)など。2019年発売した「IT業界の病理学」(技術評論社)は2019年11月にAmazonでカテゴリー別ランキング3部門1位、総合150位まで獲得した迷書。

バックナンバー