OpManager ナレッジベース

プロセス監視でダウンしていないにも関わらず、プロセスがダウンする。または起動していないにも関わらず、ダウンを検知しない


現象

プロセス監視でダウンしていないにも関わらず、プロセスがダウンする。
または起動していないにも関わらず、ダウンを検知しない。

解決方法

  • [インベントリ]から該当の装置を選択 -> [認証設定の変更] -> [認証テスト]を実行し、
    それぞれの監視プロトコルで認証に成功しているかを確認します。
  • OSのアップデートやアプリケーションのアップデート等が行われた場合、監視対象のプロセスの構成情報(PID,パス,引数)が変更が生じた可能性があるため、監視項目を削除/再登録します。

上記の基本事項を確認後、認証に成功し再登録しても事象が修正されない場合には以下の通り使用しているプロセス監視のプロトコルに応じてトラブルシューティングを実行します。

プロセスをSNMPで監視しているか、WMI/CLIを監視しているかの確認は以下の方法で確認いただけます。

ビルド12.2以降の場合:
・[設定] -> [監視] -> [プロセス]の[プロトコル]欄を確認
・装置スナップショット -> [監視] -> [プロセス]でプロセス監視の編集画面を開き、表示された編集画面の[ポーリング]を確認

ビルド11600以前の場合:
プロセスをSNMPで監視しているか、WMI/CLIを監視しているかの見極めは以下のメッセージを確認します。

警告:プロセスはSNMPを使用して取得されています。正確なプロセス監視を行うには、WMI/CLI 認証 を設定してください。

装置スナップショット -> [監視] ->  [プロセス監視] -> [監視追加]を実行して表示されたページで、上記のメッセージが表示される場合にはSNMPで監視を行っています。
メッセージが表示されない場合にはWMI/CLIで監視を行うプロセスの追加リストが表示されます。

SNMPでプロセスを監視している場合

1) タイムアウトが発生している場合が考えられますので以下の通りタイムアウト値を変更します。
[管理]-[認証設定]にて、SNMPの認証を編集し、表示された画面で詳細ボタンを押下後、以下のように更新します。

SNMPタイムアウト(秒) 10
SNMP リトライ     1

2) タイムアウトやリトライを変更しても事象が改善されない場合には、
以下の表にあるOIDをMIBブラウザで値を取得できるかどうか確認。

OIDオブジェクト取得情報

.1.3.6.1.2.1.25.4.2.1.1HOST-RESOURCE-MIB::hrSWRunIndexプロセスID
.1.3.6.1.2.1.25.4.2.1.2HOST-RESOURCE-MIB::hrSWRunNameプロセス名
.1.3.6.1.2.1.25.4.2.1.4HOST-RESOURCE-MIB::hrSWRunPathパス
.1.3.6.1.2.1.25.4.2.1.5HOST-RESOURCE-MIB::hrSWRunParameters引数
.1.3.6.1.2.1.25.5.1.1.1HOST-RESOURCE-MIB::hrSWRunPerfCPU使用CPUリソース
.1.3.6.1.2.1.25.5.1.1.2HOST-RESOURCE-MIB::hrSWRunPerfMem使用メモリリソース
.1.3.6.1.2.1.25.3.3.1.1HOST-RESOURCE-MIB::hrProcessorFrwIDCPUコア数

詳細)
SNMPを用いたプロセス監視の仕様
https://www.manageengine.jp/support/kb/OpManager/?p=2313

mibブラウザの使用方法については以下を確認
https://www.manageengine.jp/support/kb/OpManager/?p=474

3) 2)のOIDを問題なく取得可能な場合、原因解析のため以下の資料を弊社サポートまでお送りください。
  • 問題のプロセスのプロセス名
  • 該当の装置のスナップショット画面のスクリーンショット画像(装置情報やプロセス監視の項目が見える形で取得)
  • 該当の装置のスナップショット -> [認証設定の変更] -> [認証テスト]を実行し、表示された画面のスクリーンショット画像
  • 問題の発生しているプロセスのアラートのメッセージを押下して表示される「イベント履歴」の画面スクリーンショット
  • プロセスダウンで発生したアラーム画面のスクリーンショット
  • [管理]または[設定]タブ -> [システム設定]のログにて、SNMPのみ有効に設定し一時間ほど経過後、デバッグログの解析のため以下のナレッジベースを参照し、サポート情報ファイルを作成しご送付ください。
    調査用ログの取得手順
    https://www.manageengine.jp/support/kb/OpManager/?p=2326

WMIでプロセスを監視している場合

1) OpManagerが実際に行っているWMIによる監視を手動で実行し値を正常に取得できるか確認します。

1. 管理者権限でコマンドプロンプトを起動します。
2. OpManager\conf\applicationscriptsに移動します。
3. 以下のスクリプトを実行します。装置名、ホスト名、パスワードをそれぞれ入力してください。

cscript proc_cpu_usage.vbs <事象の発生している装置名> <ユーザ名> <パスワード>
cscript proc_memory_usage.vbs <事象の発生している装置名> <ユーザ名> <パスワード>
cscript process.vbs <事象の発生している装置名> <ユーザ名> <パスワード>

<device name>・・・装置名にはホスト名とIPをそれぞれ入力してください。
<Domain Name><user Name>・・・ホスト名
<Password>・・・パスワード

4. 装置名としてホスト名とIPアドレスをそれぞれ入力した実行結果を確認し、
問題のプロセスの値を正常に取得できているか確認。

2) 1)で値を取得できる場合には、以下を確認します。

1. 監視対象装置がOpManagerインストールサーバ上で名前解決できるかを確認します。

nslookup <ホスト名>
nslookup <IPアドレス>

または、C:\Windows\System32\drivers\etc\hosts ファイルに<IP> <ホスト名>が記載されているかを確認してください。
2. OpManagerのインストールサーバ上で、TCP/IP詳細設定のDNSサフィックスが有効になっているかを確認します。

3) 2)-1、2)-2で問題がない場合には、原因解析のため以下の資料を弊社サポートまでお送りください。
  • 問題のプロセスのプロセス名
  • 該当の装置のスナップショット画面のスクリーンショット画像(装置情報やプロセス監視の項目が見える形で取得)
  • 該当の装置のスナップショット - [認証設定の変更] - [認証テスト]を実行し、
    表示された画面のスクリーンショット画像
  • プロセスダウンで発生したアラーム画面のスクリーンショット
  • 1)で取得したproc_cpu_usage.vbs、proc_memory_usage.vbs、process.vbsの実行結果
  • 事象発生時の問題のプロセスのアプリケーションのプロセスの起動/停止が記載されているログファイル
  • 以下のナレッジをご参照の上「WMI」デバッグログを有効化し、問題の装置で事象の再現。
    デバッグログの有効化方法
    https://www.manageengine.jp/support/kb/OpManager/?p=7479
    その後、以下のナレッジベースをご参照の上、サポート情報ファイルを作成しご送付ください。
    調査用ログの取得手順
    https://www.manageengine.jp/support/kb/OpManager/?p=2326

CLIでプロセスを監視している場合

1) OpManagerが実際に行っているCLIによる監視を手動で実行し値を正常に取得できるか確認します。

1. 監視対象のOS上で、端末を開き以下のコマンドを実行

ps -eo pid,comm,ppid,pgid,args | grep -v 'defunct' | awk 'BEGIN {arr[0] = 0;arr[1] = 1;arr[2] = 2;} {if (($3 == $4) || ($1 == $4) || ($3 in arr)) {print $0}}'

表示された結果とOpManager上のプロセスのステータスを確認

2) 1)のコマンドの実行結果の一番最後に「   」という空欄が入ると、CLIによるプロセス監視が正常に行われません。

コマンド実行結果例)

4342 postgres 4341 4342 postgres: logger process          

こちらに該当する場合、プロセス監視 -> 「引数」を無効化し、再度監視できるかの確認をお願いいたします。

3) 1)のコマンドの結果が2)に該当せず、かつOpManager上のプロセスのステータスが異なる場合、原因解析のため以下の資料を弊社サポートまでお送りください。
  • 問題のプロセスのプロセス名
  • 該当の装置のスナップショット画面のスクリーンショット画像(装置情報やプロセス監視の項目が見える形で取得)
  • 事象発生時の問題のプロセスのアプリケーションのプロセスの起動/停止が記載されているログファイル
  • プロセスダウンで発生したアラーム画面のスクリーンショット
  • 以下のナレッジをご参照の上「CLI」デバッグログを有効化し、問題の装置で事象の再現。
    デバッグログの有効化方法
    https://www.manageengine.jp/support/kb/OpManager/?p=7479
    その後、以下のナレッジベースをご参照の上、サポート情報ファイルを作成しご送付ください。
    調査用ログの取得手順
    https://www.manageengine.jp/support/kb/OpManager/?p=2326

【対応リリース】 9.x以上

★-----------------------------------------------------------------------------★
OpManager 製品紹介ページはこちら ↓
https://www.manageengine.jp/products/OpManager/
★-----------------------------------------------------------------------------★