このすみ技術ろぐ

とあるWebエンジニアが、技術や趣味について書くブログです。

東京証券取引所システム障害の記者会見を見た

話題になっていたので、東京証券取引所システム障害の記者会見を見ました。 皆さんすごいと仰ってますが、確かにすごい。

忘れてしまう前に、少し感想など書いておきます。

www.youtube.com

共有ディスク装置のメモリ故障

システム障害の原因となったのは、機器のメモリ故障で、いわゆるハードウェアトラブルです。

約350台ものサーバーが稼働していれば、定期的にハードウェアトラブルは起こっていたと推測されるので、正常であればフェールオーバーして稼働を継続していたのだと推測されます。

フェールオーバーが正常に作動しない

テストでは切り替えを確認したのに、実際にハードウェアトラブルが発生したときにフェールオーバーが正常に作動しなかったという発言のタイミングでは、思わず「これはあるあるだ」と感じてしまいました。

可能ならば、正常にフェイルオーバーできなかった真の原因を知りたいです。 これは続報を待ちます。

全体システムの再起動に伴うリスクからの売買停止

とくにすごいと感じたのは、CIOが全体システム再起動に伴うリスクを、正しく把握していたことです。

再起動に伴うデータ消失や、投資家をはじめとする利用者への混乱は相当なものになるのは間違いないので、リスクを適切に把握した上で判断する姿勢に感服しました。

定時処理(ジョブ)が実行できない

会見の中でジョブという言葉が何回か登場してますが、これはLinuxでいうcronのような仕組みのことかと思います。 これが正常に実行できず相場情報などが配信できない状態のため、市場に混乱をもたらすとのことでした。

さいごに

約350台の中の1台だけが故障したという報告を受けた場合、そいつだけ切り離して稼働を継続せよみたいな指示を出す発想になりがちです。

適切に故障の影響範囲を把握した上で、サービス停止の決断にいたる過程は素直に見習いたいです。