ニューノーマルで悩む管理者の夜

第参拾七夜 全銀システムトラブルで悩む管理者の夜(裏)

概要

変化を体言するキーワードが、「ニューノーマル」。珍常態を、システム管理者目線でゆるーく語っ ていこうと思います。

目次
10月10日の悲劇を振り返る
経緯を振り返る
原因をもっと振り返る
再発防止策を斜めに見る
なぜ「いろいろなこと」が遅いのか?
金融業界はスーツ満開

10月10日の悲劇を振り返る

前回(2023年12月)のコラムでは、あの「全銀トラブル」について語りました。
 第参拾六夜 全銀システムトラブルで悩む管理者の夜
それから、約3ヶ月以上経過して、続編というか裏版を書くことになりました。

振り返りますと、2023年10月10日に発生した全銀システム(正式名称 全国銀行データ通信システム)のトラブル。ちょうど半期過ぎたところでのトラブル。各所にかなりの影響を与えたはずなのですが、、、あまり騒がれなかったですね。影響が低かったというより、マスコミ対策がしっかりしているためだと思います。そして、諸々あって、2023年12月1日に、全国銀行資金決済ネットワーク及びNTTデータから「全国銀行データ通信システムの障害について」という報告書を公開しています。

https://www.zengin-net.jp/announcement/pdf/announcement_20231201.pdf

以下では、この報告書などをベースにしつつ、あの事件を振り返りたいと思います。



<図表37-1 発生事案>

 

経緯を振り返る

経緯については、前回のコラムで時系列で説明しています。元ネタは日経コンピュータ誌ですが、今回の報告書を基に修正/追記いたしました。

10月7~9日 14の加盟金融機関で中継コンピュータ(RC)の更改作業実施(RC17からRC23シリーズへ)
10月10日午前8時35分過ぎ RC の「内国為替制度運営費付加・チェック処理」機能を利用している9の加盟金融機関で
中継コンピュータ(RC)でRC本体がシステムダウン
同日 午前9時43分頃 1の加盟金融機関でRC 本体装置がシステムダウン
同日 午前9時30分頃
(上記と並行で)
全銀ネットとベンダー(NTTデータ)がRCを再起動、障害解消せず
同日 午後2時30分頃 LTOテープなどを介した代替手段による振込を開始
同日 午後5時頃 RC が内国為替制度運営費のテーブルを参照せずに、固定値にて内国為替制度運営費の金額を入力するプログラム修正【暫定対処1】を行うことを決定
同日夜間~11日早朝  【暫定対処1】の修正に時間を要し、さらに新たなバグを検出したため、この対処のリリースを断念
10月11日 午後1時頃 内国為替制度運営費の金額を一律0円となるプログラム修正【暫定対処2】を行うことを決定
10月12日 午前3時頃 【暫定対処2】が問題なく稼働していることを確認
10月12日 午前10時50分   未処理分の振込処理対応の完了

上記のタイムテーブルを見ますと、まず【暫定対処1】で対処しようと修正を始めたが、修正に時間がかかったり、その他の問題が発生したため、【暫定対処2】で対応したことがわかります。システムトラブルの対処について、現場が試行錯誤して苦労したことがよくわかります。そう、一発で修正案が立案され、解決に向かうことなどありません。時間や外的プレッシャーなどに襲われながら、エンジニアたちは進んでいるのです。
そして、一律0円対応である【暫定対処2】ですが、このような対処は辛い。泣きたくなるような対策です。結構ドキドキしながら、決意したと思います。会議でもかなり紛糾したはず。この「こんな対処をしたくないけど、仕方ない」という断腸の思いはひしひしと感じます。

 

原因をもっと振り返る

上記の経緯にも書かれていますが、報告書には「内国為替制度運営費情報を取得する前段でアクセスする共有メモリ上のインデックステーブルにある加盟金融機関の値の一部が破損したことによるものです。この結果、RC23 シリーズ内のプログラムが内国為替制度運営費付加・チェック処理を実施する際に、インデックステーブルから正常な値を取得できず異常終了してしまい、RC 本体装置のシステムダウンに繋がりました。
」とあります。さらに、「このインデックステーブルは RC 起動時にロードファイル6から展開されますが、ロードファイルを生成するプログラムのテーブル作成処理の不具合(一時的に確保する領域が不足)により、ロードファイルの内容が破損」です。
簡単に言いますと、マスターテーブルのメモリー展開をしたかったが、その領域のメモリー不足が発生したためです。今回のRC17からRC23への移行に際し、OSのバージョンアップ(*1)があり、テーブルのサイズ拡張が必要でした。また、テーブルは4つ使用するのに、作業領域の拡張をしたのは1つのみ。あきらかに、エンジニアリングの段階でのミスになります。よくある「有識者によるレビュー」(*2)も行ったらしいですが、そこでもすり抜けが発生し、見逃したらしいです。

再発防止策を斜めに見る

再発防止案ですが、NTTデータと全銀ネットで分けて記載されています。まずは、開発を担当したNTTデータの再発防止です。

1.設計・製造工程プロセスにおける再発防止 1-1.プログラム修正方針を、詳細設計関係者含めて判断するようプロセスを変更
2.試験工程プロセスにおける再発防止 2-1.新たな基盤環境でテーブルの正当性を確認するため、変更対象外のテーブルについても、新旧テーブルのコンペアを実施
2-2.より本番環境に近い効率的な試験実施方法として、商用で流れている実取引相当のデータを用いた疎通試験を実施
3.復旧対応プロセスにおける再発防止 3-1.「復旧させる業務の優先順位」と「バックアッププランへの切替時限」を全銀ネットと 合意したうえで、障害発生時の復旧ガイドラインを策定
3-2.策定したガイドラインの有効性評価の訓練、および最大リスクである東阪同時障害を 踏まえた訓練シナリオの検討と、ブラインド訓練を実施
4.再発防止策に対する歯止め 4-1.基盤更改等に対する品質保証の観点から、基盤人材の関与を高めます
4-2.NTT データおよびグループ会社が、重要な開発プロセスを分担することで、当該プロセスの実態を把握し、トラブル時の復旧対応におけるフィージビリティの   感度を高めます

 

2-2.の実取引相当データを利用した試験とか、既にやっているはずですし、もしやっていないとしたら大問題。また3-1のガイドラインや3-2の訓練もやっているはず。そもそも東日本大震災(2011年3月)、その前の阪神・淡路大震災(1995年1月)などでしっかりとガイドラインは策定してあるはず。それでも動けない要員/要因が問題です。つまり、本音は「こんなことはなんとなくやるべきだと思っていたけど、反省してこれからはしっかりやっていきます」宣言です。でも、たぶん、きっと数年後には喉熱(*3)で、形骸化しちゃうんでしょうけど。


そして、次に全銀ネットの再発防止策です。

1.委託者としてのマネジメント不十分 1-1.ベンダーにおける設計のレビュー体制および試験内容の十分性を確認し、各工程におけるベンダーマネジメントを向上
1-2.東阪同時障害発生等のリスクや加盟金融機関影響を踏まえた適切な移行方法・時期の検討  、プロジェクトリスクの洗い出し方法のマニュアル化を実施。
1-3.障害復旧対応における優先順位の整理、復旧策決定に当たっての複数プランの比較検討、 適切なタイムマネジメントのマニュアル化を実施。
2.加盟金融機関も含めた BCP の実効性不足  2-1.移行計画において、移行・稼動後の障害対策としての切戻しを含めた必要なコンティンジ ェンシープランの策定、および移行時における必要十分な人員体制の整備代替手段 (センター代行発信依頼、受信代行)にかかる障害の影響を受けた金融機関向けの留意事項の 整理を通じ、プロジェクト特性を踏まえた固有の BCP を整備。
2-2.センター代行発信依頼・受信代行にかかる留意事項の取りまとめ、障害発生時の初動および全銀ネット・ベンダー・加盟金融機関の三者間連携の整理、BCP 対応の所要時間確認・時限等の明確化と訓練を実施し、平時からの備えとしての BCP・代替手段の運用ルールを整備・強化。
2-3.センター代行発信・受信代行運用訓練のシナリオの見直し、欠送・二重発信確認対応訓練を新規実施し、実践的な訓練を通じた実効的な BCP を確立。
3.大規模障害を想定した全銀ネットにおける危機管理体制の脆弱性 3-1.大規模障害発生時における原因調査、復旧対応にかかる情報連携・優先度の整理、事業継続対策本部の役割の明確化、加盟金融機関とそのお客さまを意識した対外公表内容の事前整理・マニュアル化を通じ大規模障害時の対応事項を明確化。
3-2.大規模障害時の全銀ネットにおける対応体制・役割分担を明確化。また、障害の影響を受けた金融機関との情報連携方法の整理・マニュアル化を実施
3-3.内部研修へのシステム障害対応の追加、東阪両系障害対応にかかる内部訓練の新設を行い、 実践的な訓練を実施。
4.システム人材の不足と組織の脆弱性 4-1.全銀協等との人事ローテーションを通じた人材の強化(育成、採用)、加盟金融機関から の出向受入や外部採用等により、システム人材を確保。【期限 2024年4月以降予定】
4-2.CIO設置(*4)による事務局体制を強化。IT・システム関連の委員会の新設検討などによる所管の   明確化。【期限 2024年4月予定】
4-3.第三者評価におけるプロジェクトや全銀ネット特性を踏まえた実効性あるチェックを重視。  【期限 2024年4月予定】

 

文章が長いです。さらに、1.2.3.については対策期限が2024年3月です。4.は期限が4月のものと4月以降のものがあります。しかし、【裏版】なのであえて言いますが、職員は派遣さんや外注も多いでしょうし、どうやって習得させるのでしょうか? さらに4-3は第三者評価です。この第三者が絡むチェックやら監査やらは面倒です。どこかで、コラムのテーマにしたいネタでもあります。4-1はシステム人材の強化なのですが、どの会社でも不足しているんですよね。どうやって引っ張ってくるんでしょう。それにここに勤務したいエンジニアって、、、マゾ?

しかし、毎回この手の再発防止を見て思うのですが、要するに「やるべきこと/やったほうがよいこと」を「やらなかった」ために発生した事案がほとんどです。さらにヒューマンミスは確実に発生しますし、プライオリティを上げる項目をピックアップすれば、選ばれなかった項目が下がってしまいます。それらが起因で新しい障害が発生し、追加の再発防止案が策定され、現在の再発防止策がランクダウンします。そして、もし、新たな障害が発生しない場合、安堵感から、もしくはコストカットの外圧から、形骸化したり、有名無実化します、そう「みずほ」のように。

 

なぜ「いろいろなこと」が遅いのか?

さて、今回のシステムトラブルですが、発生したのが10月10日で、10月13日に天下の金融庁から「資金決済に関する法律第80条第1項にもとづく報告徴求命令」を受領(*5)。それに対応したこの報告書を12月に公表。そして、12月18日には、改めて「資金決済に関する法律第80条第1項にもとづく報告徴求命令」を受けました。

  10月13日の報告徴求命令について
  12月18日の報告徴求命令について

金融業界では金融庁が絶対で、金融庁のご機嫌や顔色をうかがいながら、アクションを起こします。それを鑑みると主観的な感想ですが、事前に某省庁のコメントを受けただろうなと思われる報告資料っぽくなっています。そのような監督官庁やら、外部の圧力団体が関係するシステムや業務って、かなり面倒ですし、非スピーディー(*6)です。また、いつもブラックボックス化していますし、プロセスも不透明な気がします。うん、この業界は花咲舞やら半沢直樹(*7)がキレる業界ですからね。

 

金融業界はスーツ満開

今回は「全銀システムトラブル」について語りました。公開された報告書は、やっぱり「公開された」報告書であり見えていない事実もたくさんありそうです。金融庁絡みはシロでもクロでもないグレーな世界(*8)で面倒です。パンダさんを見習ってほしいです。そして金融業界の自称エンジニア、いつもグレーなスーツなんですよね(謎)。スーツに萌える方、スーツフェチは金融関連、そして全銀のエンジニアを目指しても良いかもしれない。人材募集中なのです。

では良き眠りを(合掌)。

 

2024年4月下旬 追記

全銀ネットが3月11日に開催された「有識者会議」の議事等を公開。次期全銀システム開発プロジェクトの概要なども説明されました。それによると、次期システム開発の立ち上げは延伸、再発防止案を盛り込んで再計画の立案。さらにアジャイルエリアなどというものも追加されています。
https://www.zengin-net.jp/zengin_net/epm_tf/index.html#n1
金融系はなにかあるとすぐ延伸ですよね。仕方がないことでもありますが。スケジュールを再確認してみますと、2027年にサービス開始っぽかったのですが、そのころまでにはさらに新技術/新基盤、そして新開発手法が出ていると思います。でもそれが金融。

「お前が寝る前にベッドで無駄にスマホを見て過ごした十分は明朝お前が死ぬほど寝たかった十分」by明光寺の掲示板(?)

 

    • 商標について
      本コラムに記載されている商品やサービスの名称は、関係各社の商標または商標登録です。文中では、(TM)や(R)を省略しているものもあります。
      引用・参照について
      本コラムで引用・参照した図表や文章については、明示して引用元・参照元を記載しております。
      著作権・免責について
      本コラムの著作権は、著作者に帰属します。本コラムは著者の主観に基づく情報の提供のみを目的としており、本コラムに記載された内容を用いた運用などは、読者の責任と判断においておこなってください。また、記載内容は、執筆時のものを使用しております。

 

*1 OSはRedHatであり、今回32ビットから64ビット化に変更されたという話があります。

*2 有識者によるレビューはとても危険な言葉です。
   ・本当に「有識者」なのか?
   ・きちんと「レビュー」がされているのか?
   ・「レビュー」で指摘されたことが記載され、修正されているのか?
などをクリアしないと、意味がありません。「自称有識者が参加したコメント大会」で終わることが多々あります。

*3 「喉もと過ぎれば、熱さ忘れる」です。類似に、「病治りて医師忘る」「難産色に懲りず」などがありますが、「開発過ぎるとバグを忘れる」も入れて欲しい。

*4 2024年3月14日、CIOとして真壁 崇氏が内定。
https://www.zengin-net.jp/announcement/pdf/announcement_20240314.pdf

*5 資金決済に関する法律の第八十条は「立ち入り検査」の項目です。

*6 スピーディに出来ない理由は、ご意見をうかがう先が多数で、かつ意思決定に時間がかかる組織/会社/XX行だからです。

*7 花咲舞は池井戸潤が原作の「花咲舞シリーズ」の主人公です。書籍タイトルは「花咲舞が黙ってない」「不祥事」など。杏が主演で2014年にシーズン1、2015年にシーズン2が放送されましたが、なんと2024年4月に今田美桜主演で再度ドラマ化されます。半沢直樹はあの「倍返し」のドラマの主人公です。原作はこれもまた池井戸潤です。今シーズンCMでアピールしているキーフレーズは「見ざる言わざる聞かざる、それが臨店(班)の極意だ」で、その結果が今回のようなレポートになるのでしょう。

*8 「シロでもクロでもない世界で、パンダは笑う」は2020年に日本テレビ系で放送されたドラマ。主演は清野菜名と横浜流星。

連載一覧

コメント

筆者紹介

司馬紅太郎(しば こうたろう)
大手IT会社に所属するPM兼SE兼何でも屋。趣味で執筆も行う。
代表作は「空想プロジェクトマネジメント読本」(技術評論社、2005年)、「ニッポンエンジニア転職図鑑』(幻冬舎メディアコンサルティング、2009年)など。2019年発売した「IT業界の病理学」(技術評論社)は2019年11月にAmazonでカテゴリー別ランキング3部門1位、総合150位まで獲得した迷書。

バックナンバー