ファーストサーバーの事故原因がほぼ人災だった。その概要と今後についてまとめてみました。
先日、気軽に書いたつもりの ファーストサーバーデータ初期化の大惨事!被害者の状況と損害賠償(約款)について調べてみた。の記事が追記だらけになってきたので、中間報告が発表されたきっかけに別記事を書いてみました。
この中間報告では、今回の経緯・概要がようやく発表された感じです。色々問題点がありすぎてどこが責任を持つのか気になる内容ですけども、結局はどのように保証されていくのかが気になる所なので、騒がれている事などをまとめてみました。
それにしても、先日書いた記事『損害賠償』というワードで検索される方が多いこと・・
大規模障害の概要と原因について(中間報告) ファーストサーバ サポートWEB
今回の事故について
さて、今回の中間報告について今回の事故原因の概要が発表されました。
当初発表されていた通り、更新プログラムのバグが発生したのは間違いなさそうですね。('A')
脆弱性対策は更新プログラムを利用して一括して対象とするサーバー群に対して実施するという運用を以前から行っており、今回も同様に作業を実施しました。実施にあたっては検証環境において 動作確認を行い対象サーバー群に問題が発生しないことを確認したうえ で、本番環境で実施するという手順を取っております。
っという事らしいのですね。テスト機にパッチ当てたけど問題なく動作したから、他の鯖機に適用しました。そしたら不具合が発生しましたという事でしょうか。
ファーストサーバーの大事故、こんな感じかな。1)OSのアップデートをかけたら、かけた以外のマシンのファイルを消すバグが入ってた。2)テストでかけたマシンはOKだったので本番のマシンにかけた。3)バックアップマシンにも同時にアップデートかける方針にしてたので全部飛んだ。
-- Masahiro Kuze / 久世正弘さん (@mkuze) 6月 24, 2012
なるほど、、分かりやすいね。更新プログラムを作成した側の落ち度はもちろん、導入するシステム管理側の落ち度もありそうです。
何だか別の例えですけど、RC版を本番環境に入れた→希望するプログラムが動かなくなったーっというのはよくある事、100%信用するまでに至るプロセスは重要なのだと感じます。
これについては、"そのプログラムの記述において、ファイル削除コマンドを停止させるための記述漏れ と、メンテナンスの対象となるサーバー群を指定するための記述漏れが発生していました。"っという障害の原因という項目で説明されています。
twitter 上で上記画像が出回っている理由(これは今回の事故によるものじゃない)はこういう経緯だったのね。
ちなみに、このrmの恐怖については こちらに詳しく 書かれています。
というわけで、その更新プログラムを信用した事で
下流まで放流してしまったというわけです。
@bleis プログラムにミスがあるのは当然だし、確認もれもよくあることだけど、そのプログラムを正常系とバックアップ両方に適用してしまったら、そこまでのミスが素通りしてしまう!
-- きしだ。さん (@kis) 6月 25, 2012
データのバックアップは取れているにしろ、システム側からそれを適用してしまったからこそ、このような状態になってしまったのね。
もっと、HDDに物理的損傷(火災含む)が加わったとか、サーバー自体にバグが存在し来る日にデータが削除されるという謎の障害が発生したとか、そういった類の報告だと思っていたのですが、これじゃ、完全に人災なのではないかなっと感じております。
先日の記事でもちょろっと書かせて頂いたジェイコム事件と似ているのですよね・・
原因2.3はファーストサーバーさんのいいわけが説明風に書かれた違和感がありますけれど、結局はバックアップまで適用してしまった落ち度については、このサーバーのシステム屋から『更新プログラムはこうやって適用させてくださいね。』っとマニュアルをアナウンスされたので、ファーストサーバーはその通りやっただけ。
こんなところでしょうか。
こうなると、バグを作った更新プログラム元、今回このような更新プログラムの導入を促した責任者(サーバー導入元?)が責任を負うことになる気がします。
人災ジェイコム事件と照らし合わせると
先日のファーストサーバーデータ初期化の大惨事!被害者の状況と損害賠償(約款)について調べてみた。にもちょろっと書きましたけれど、システムという面(賠償金については株式で既に約定しているので今回の件とは全く違いますが)と人災という面では似ている気もします。
ジェイコムでは、みずほ証券の男性担当者が「61万円1株売り」とすべき注文を「1円61万株売り」としてしまい、発行済み株式数を超越する大量の売りが出てしまいます。結果、そのような売りを許可する事ができるプログラムと取消制御できな買ったシステム的な要因で、過失割合は東証7対・みずほの落ち度が3で解決した事件ですね。
そもそもの始まりが人災である、更新プログラムの記述ミスからはじまり、システムの導入プロセスで障害が発生して結果データ初期化になってしまったわけですから、複数の企業も巻き込んだ過失責任に発展した場合、長引きそうな気もしながら保証の面でどのように展開されていくか、今後の判例にもなることから注目していきたいところです。
前の記事にも書いた第三者機関が立ち上げられましたね。こうなると、今回の事故が完全に自社内で完了する仕組みではない事を物語っている気もします。(要するに更新プログラムしかり、今回の導入プロセスが自社で行っていたのではなく多少なり外注が関わっていたという事)
っというわけで、とりあえず中間報告を自分なりにまとめてみました。今後新しい情報が追加されましたら、こちらに追記していきますー。
おまけ
テキストページ化されてしまったLoftさんが
阿佐ヶ谷ロフトA 2012年7月14日の深夜スケジュール
今回の大規模障害で涙を飲んだ人たちで集まろうオフ会を企画しております。
前代未聞空前絶後の無限地獄に我々を叩き込んだ"実績と信頼の"ファーストサーバ。
っとディスってますワロタwww。供養会とかかなり面白そうなイベントなので参加したいのですが、その日連休中なので行けなくて泣きそうです・・・('A')
ファーストサーバが謝罪対応係を時給1000円で募集 「専門知識は不要です」
真偽はわかりませんが、こんな募集をしているそうです。電話が繋がる安心感はあるので頑張って頂きたいですね。
今回障害が発生していないお客さんから、『ファーストサーバーの記事を読んで他社へ移管したい』とか今朝方言われて驚いているわけですけども、今回はたまたまファーストサーバーであって、どこのサーバーでも100%はありませんからバックアップは常にとっておくことを心掛けないといけませんね。
この機に、自分が運営している写真素材ぱくたそ のバックアップを取っていたら普通にGBクラスになりまして、これを更新ごとにバックアップしてたら作業的にも厳しく業務で行っていたら別途費用になるよね・・・っと悩ましい問題です。('A')n おしまい。