適応しきい値機能
OpManagerでは、過去の監視データをもとに適切なしきい値を動的に設定できます。 ネットワーク障害の兆候を事前に予測するため、ネットワーク監視ツールのしきい値を設定することは非常に重要です。ただし、1台ずつ手動で適切なしきい値を推測しながら設定するには時間や手間がかかり、特に管理対象機器が多い場合には困難と言えます。OpManagerの適応しきい値を活用することで、適切なしきい値を手軽に自動設定できます。
適応しきい値の概要
適応しきい値は、OpManagerを用いた過去のパフォーマンス監視のデータをもとに、機械学習を利用して1時間ごとに最適なしきい値を動的に予測する機能です。適応しきい値機能は、文字列型の監視を除く全てのパフォーマンス監視で利用できます。
OpManagerが監視データを蓄積することで、時間、日、週、さらには月ごとの利用サイクルを学習していきます。そして、この繰り返されるパターンに合わせて、アラートのしきい値を自動で調整するようになります。
これにより、毎日のトラフィック集中、毎週の定期メンテナンス、月末の大量処理といった予想できる変動は、無視すべきものとして扱われます。その結果、本当に異常な事態が発生したときだけ、確実かつ不要なノイズなしで、アラートを発報できるようになります。
適応しきい値のアラート発報の仕組み
適応しきい値は、ユーザーが設定する差分値(Deviation)とパフォーマンス監視の過去の監視値を組み合わせてアラートを発報します。
例えば、ある1時間のCPU使用率の予測値が70%であり、3段階のしきい値である注意/警告/重大の差分値(Deviation)がそれぞれ10/15/20に設定されていた場合、CPU使用率の値が80%(70+10)で注意、85%(70+15)で警告、90%(70+20)で重大のアラートを発報します。アラート情報は画面上やメールなどで迅速に管理者に通知します。
適応しきい値は監視項目ごとや装置テンプレートごとに一括適用できるほか、機器ごとに適用することも可能です。適応しきい値の仕組みや有効化手順の詳細を知りたい方は、適応しきい値のユーザーマニュアルをご参照ください。
具体的な例
OpManagerは、以下のように変動する状況に合わせてしきい値を柔軟に調整します。
- 時間・日単位の変動: ピーク業務時間のCPU使用率の上昇や、非業務時間の活動低下など、日々の利用状況の変化に合わせてしきい値を動的に調整します。
- 週単位のパターン: 「毎週金曜日の夜に定時メンテナンスがある」「毎週月曜日の午後にCPU負荷が高まる」といった週ごとのルーティンを認識し、その特定の時間枠にしきい値を適用します。
- 月単位のスパイク: 長期間のデータ蓄積により、月末月初などの運用上の急増も検知し、しきい値を自動で最適化します。