N695_natukasiisuma-tobo-ru_TP_V-2

テレビなどで、「〇〇でシステムトラブルが発生」「〇〇の業務に影響が出た」というニュースを耳にすることがあります。システムを動かしている以上、トラブルが起こると業務に何らかの影響が出ます。そしてトラブルの中でも特に業務への影響が大きいのは、運用停止を伴うものです。

さらに運用停止を伴うトラブルが長時間続くと、被害はたいへん大きくなってしまいます。こうしたトラブルは、ユーザー側もシステムベンダー側も極力避けたいものです。

ここでは、運用停止を伴うシステムトラブルはどのような原因で起こるのかとその対策について述べていきます。ここで述べる内容を理解することで、構築するシステムのトラブルを回避したり軽減措置を打ったりして重大なトラブルを未然に防ぐことができるようになります。

システムトラブルの原因となる事象

コンピューターシステムは、さまざまな精密機器やソフトウェアの組み合わせで作られています。それらの機器やソフトウェアが思うように動かなくなることによって、システムが不具合を起こします。不具合の程度が大きいときは、システム停止が長時間におよび業務に影響を及ぼします

それでは、運用停止を伴うシステムトラブルの原因となる事象とその対策にはどのようなものがあるかを見ていきましょう。

ハードウェア・インフラの故障

サーバーなどのハードウェアやネットワークなどのインフラの故障が原因となります。サーバーに大容量のディスクアレイ装置(プログラムやデータを保存しておく補助記憶装置)が接続されている場合、ディスクアレイ装置が故障すると被害が大きくなります。

故障に備えて予備機やバックアップを用意しておくのが有効な対策になります。

人為的な作業ミス

人為的な原因でも発生します。後から考えればどうしてやってしまったのだろうというような単純なうっかりしたミスであっても、大きなトラブルになることがあります。

例えば、システム構築では本番系とテスト系の2系統のサーバーを用意することがあります。本番系が稼働中として、テスト系のサーバーを間違って本番系に接続してしまうとトラブルにつながります。

そして最近は、既存のシステムを新しいサーバーに更新するプロジェクト(システムリプレース)の作業中、稼働中のシステムに間違って新しいサーバーをつないでシステムを止めてしまうというようなこともよく起こります。

こうした人為的なミスを完全に抑えることは困難です。そして、作業者の精神状態によっても発生頻度が変わります。事前に正しい作業手順を検討し、作業マニュアルを用意するのが有効です。そして作業者は作業マニュアルを遵守し、手順通りに作業が行われているかを確認するようにしましょう。

アプリケーションソフトの動作不具合

サーバーで動くアプリの不具合が原因となることもあります。サーバーで動くアプリには、「データベース」(システムで扱うデータを保存したり取り出したりするソフト)や「通信ソフト」(他システムと情報のやりとりするソフト)などがあります。

アプリの不具合は、単純なプログラムのバグの場合もありますし、他システムとのやりとりで不正データが発生してそれがトリガーとなって発生する場合もあります。稼働前のテストを細かく実施しておくことが有効な対策となります。

データの増加に伴う空き領域不足

システムで扱うデータは、時間が経つとともに増加していきます。データの増加は、システム設計時に当然見込まれているのですが、それでも予想外にデータが増えたり別のシステム設定値によって空き領域の使用量が制限されていたりすることがあります。

そのようなときに空き領域不足のトラブルが起こります。この種のトラブルは事前予測が難しいです。そのため現実的には、システム稼働後のシステム監視を行うのが有効な対策になります。

このように、システムトラブルはさまざまな原因によって起こります。それに伴い運用停止につながります。トラブルが起きたとき、原因がわかれば対策を打つことはできますが、そもそもこうした原因をすべてコントロールしようとすること自体がたいへん難しいものでもあります。

そのためシステムトラブルに伴う運用停止を回避するには、システム構築時の設計から稼働後のデータ監視までをトータルで見てサポートしていくことが必要であると考えられます。