SSブログ

気象情報配信システム障害、3つの障害が連続発生 [運用管理]

先日システムダウンが発生した気象情報配信システム。原因は3つの障害が連続的に発現したものでした

第1の障害は本番系のCPUボード
第2の障害は引継ぎ情報ファイルの破壊。ここまでは先日の通りでした。
実はこのあともう1つの障害が発生していたようです。実は障害後引継ぎ情報のファイル破壊された部分を特定。修正しましたが、その後通信機器の接続を切り替える「回線切替器」が正常に動作せず、システム障害が回復しませんでした。

第2、第3の発生原因は不明ですが、第1の障害を契機に次々に発現してしまい長時間のシステムダウンにつながったということのようです。

高可用性を維持するためには機器導入時だけではなく、運用開始後も切り替えテスト等を定期的に行っておく必要があるという教訓になりましたね。

気象情報配信システムがダウン、原因はハード障害
気象情報配信システムがダウン、原因はハード障害。

障害の発端はCPUボードの障害。当然多重化構成でホットスタンバイ方式を採用していましたが、予備系起動に失敗。このためシステムダウンとなったようです。
予備系システム起動の失敗の原因は現用系、予備系双方からアクセス可能な共用ディスクにあった引継ぎ情報ファイル。このファイルの一部が壊れていたとのことです。この壊れた部分を見つけるのに時間がかかり17時間のシステム停止となってしまいました。
なぜファイルが壊れていたかはまだ判明していません。
 http://itpro.nikkeibp.co.jp/article/NEWS/20090309/326223/


多重化構成をとっていたが予備系切り替えに失敗、という話が良く出ますよね。障害対策というのはこのように難しいものです。
今回の切り替え失敗の原因である引継ぎファイルという名称から推測するに、システム切り替えの際にしか使用しないのかもしれませんね。このため中身が壊れたまま運用を継続してきた可能性もあります。こうしたことを防ぐためにシステム切り替え用のファイルなども定期的に検査するなどの対策が必要そうですね。


nice!(0)  コメント(0)  トラックバック(0) 
共通テーマ:仕事

nice! 0

コメント 0

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

トラックバック 0

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。