気象情報配信システムがダウン、原因はハード障害 [雑感]
気象情報配信システムがダウン、原因はハード障害。
障害の発端はCPUボードの障害。当然多重化構成でホットスタンバイ方式を採用していましたが、予備系起動に失敗。このためシステムダウンとなったようです。
予備系システム起動の失敗の原因は現用系、予備系双方からアクセス可能な共用ディスクにあった引継ぎ情報ファイル。このファイルの一部が壊れていたとのことです。この壊れた部分を見つけるのに時間がかかり17時間のシステム停止となってしまいました。
なぜファイルが壊れていたかはまだ判明していません。
http://itpro.nikkeibp.co.jp/article/NEWS/20090309/326223/
多重化構成をとっていたが予備系切り替えに失敗、という話が良く出ますよね。障害対策というのはこのように難しいものです。
今回の切り替え失敗の原因である引継ぎファイルという名称から推測するに、システム切り替えの際にしか使用しないのかもしれませんね。このため中身が壊れたまま運用を継続してきた可能性もあります。こうしたことを防ぐためにシステム切り替え用のファイルなども定期的に検査するなどの対策が必要そうですね。
障害の発端はCPUボードの障害。当然多重化構成でホットスタンバイ方式を採用していましたが、予備系起動に失敗。このためシステムダウンとなったようです。
予備系システム起動の失敗の原因は現用系、予備系双方からアクセス可能な共用ディスクにあった引継ぎ情報ファイル。このファイルの一部が壊れていたとのことです。この壊れた部分を見つけるのに時間がかかり17時間のシステム停止となってしまいました。
なぜファイルが壊れていたかはまだ判明していません。
http://itpro.nikkeibp.co.jp/article/NEWS/20090309/326223/
多重化構成をとっていたが予備系切り替えに失敗、という話が良く出ますよね。障害対策というのはこのように難しいものです。
今回の切り替え失敗の原因である引継ぎファイルという名称から推測するに、システム切り替えの際にしか使用しないのかもしれませんね。このため中身が壊れたまま運用を継続してきた可能性もあります。こうしたことを防ぐためにシステム切り替え用のファイルなども定期的に検査するなどの対策が必要そうですね。
これは否めない事実だ。
by iPhone 4 ケース (2011-09-26 13:19)
これは否めない事実だ。
by モンクレール (2011-09-26 14:35)