ネットワークの異常検知・障害検知を簡単に実現する方法

サーバー・ネットワーク統合管理ソフト

異常検知・障害検知とは?

ネットワークにおける異常検知とは、安定して運用できているネットワークやシステム、サービスの状態とは異なる状態が発生したことを検知することを指します。また、障害検知とは、エンドユーザーの利用状況に影響が出たネットワークやシステムの不具合を検知することを言います。

ネットワークの異常や障害を検知する方法としては、以下を確認することが有効です。

  • ネットワークから監視対象機器へPINGコマンドを実行して、応答があるか
  • 機器のネットワークの応答時間が正常な範囲内に収まっているか
  • サーバー内でサービスやシステムプロセスが正常に起動しているか
  • 装置のCPUやメモリー等のリソースを監視し、値が正常な範囲内に収まっているか
  • Webサービスの場合、サービスのURLにアクセスしてページが表示可能か

異常や障害は発生後に短時間で特定して解消する方が、ビジネスに与える影響を最小限にできるため望ましいとされます。

異常検知・障害検知を実現するためのポイント

情シス担当者やサーバー管理者がシステムの異常を知るきっかけとして、システムの利用者やエンドユーザーからの
「アクセスできない」
「サービスが遅い」

という声を受けて異常を知り、調査を開始するケースがあります。しかし、「アクセスできない」「サービスが遅い」などの問題が発生してから調査を開始した場合、原因と考えるべき範囲が大きく広がり、短時間での障害復帰の難易度が高まります。つまり、エンドユーザーから通報を受ける前に管理者が検知できている方が望ましいということは言うまでもありません。

また、夜間や休日に発生した障害への対応など、情シス担当者やサーバー・システム管理者の負荷は非常に高いと言えます。

異常検知・障害検知のツールを使用してシステムを構成する重要な要素を監視することで、管理者は、エンドユーザーから通報を受ける前に自動的に問題の発生を把握し、問題箇所をいち早く特定して対処することが大切です。

迅速な検知を実現する監視ツール

そのため、多くの管理者が異常や障害の検知を監視ツールで迅速化しています。ManageEngineが提供するOpManagerも監視ツールのひとつです。OpManagerは、ネットワークやサーバーを定常的に監視するため、システム内で発生した異常状態や障害の発生個所や発生日時を、即時検知することが可能です。OpManagerで検知した異常状態や障害は、「アラート」として一覧表示され、障害が解決されるまで表示され続けます。

無料で使えます[機能・監視数 無制限]

ダウンロードはこちら概要資料はこちら

また、アラートの発生と同時にメールや音声等で管理者に通知することや、スクリプトやコマンドを実行して対応を自動化することが可能です。OpManagerで、柔軟なネットワークやサーバー障害管理を実現できます。

OpManagerで実現可能な異常検知・障害検知は以下の通りです。

3段階のしきい値設定による細かい障害状態の定義

OpManagerでは、応答時間やパフォーマンス監視項目にしきい値を設定可能です。そのしきい値条件の違反時にアラートを発生させて、管理者にお知らせします。しきい値の条件は3段階設定可能です。緊急度に応じたしきい値を設定し、各段階の対応プロセスを定義することで、重大な障害の発生予防につながります。

しきい値設定

しきい値設定

障害が発生した機器を一目で把握できる可視化機能

アラート一覧
イベントビュー

アラートビュー

確認済みのアラートに確認済みを意味するマーク(チェック)をつけることで、新しいアラートと認識済みのアラートを区別して管理できます。また、確認済みのアラートでは確認を行った管理者の名前が表示されます。

アイコンステータス意味
Critical重大(Critical)デバイスへのポーリングに連続5回未応答
Trouble警告(Trouble)デバイスへのポーリングに連続3回未応答
Attention注意(Attention)デバイスへのポーリングに1回未応答
Service Downサービスダウン (Service Down)サービスやインターフェスなどがダウンしている状態
Clearクリア(Clear)デバイスへのポーリングに応答有り(通常状態)
Unmanaged非管理、メンテナンス中メンテナンス中など、監視をしていない状態

OpManagerの死活監視におけるアラート通知と重要度を示す表示マーク

ポップアップ通知

障害のアラートを画面右下にポップアップで表示し、迅速な障害対応を促します。

ポップアップ通知

ポップアップ通知

メンテナンス設定

管理者は、一時的に装置を管理対象からはずすことができます。定期メンテナンスやアップデートで装置を停止する場合に役立ちます。 設定した時間が経過すると、装置のステータスは管理状態に戻り、障害発生時にはアラートを表示します。

アラート抑制設定

ダウンタイムスケジューラ設定

メールや音声による通知や、プログラム実行による対応自動化

障害通知機能

OpManagerは、アラートが発生した時に、メールを使用して通知することができます。メールによる通知の他、外部プログラムの実行や音声による通知も可能です。利用環境に合わせて、アラートの通知方法を使い分けられるという特長を持っています。

アラート発生時に実行可能な通知機能・自動化機能は以下の通りです。

  • メール・SMS通知
    障害が発生したとき、指定したメールアドレスにアラートの内容を送信します。コンマ区切りで複数のメールアドレスを指定できます。
  • システムコマンド実行・プログラム実行
    障害が発生したとき、サーバー上でコマンドを実行することや、既存のプログラムを実行できます。
    「警子ちゃん(アイエスエイ社)」との連携の詳細はPDF資料(別のウィンドウで開く)をご参照ください。
  • 画面上での音声再生(Webアラート)
    障害の発生を音声(ビープ音)で通知できます。
  • Syslog送信・トラップ送信
    他のマネージャー製品へOpManagerのアラート情報をSyslog・トラップとして送信します。
  • ヘルプデスクソフトウェアへのチケットログ作成
通知プロファイル設定

通知プロファイル設定

エスカレーションルール

アラートには、エスカレーションルールを設定できます。 たとえば、現在~1時間以上解決できていないアラートの一覧を作成し、必要に応じて定期配信することも可能です。

設定方法(動画)

監視アラートに伴いメール通知を実行する設定を紹介します。

無料で使えます[機能・監視数 無制限]

ダウンロードはこちら概要資料はこちら