5.5.1 アラームリスト
アラームは、次のリストから発生条件が持続時間だけ継続した場合に発生する。
アラーム ID |
ALM-001 |
レベル |
warning |
アラーム名 |
AlertmanagerDown |
持続時間 |
5分 |
発生条件 |
Alertmanagerメトリックの収集ができない場合に発生 |
処理 |
Prometheusのログと Alertmanagerのログとイベントを確認する。 必要な場合には、Podを再起動する。 |
アラーム ID |
ALM-002 |
レベル |
warning |
アラーム名 |
AlertmanagerFailedReload |
持続時間 |
10分 |
発生条件 |
Alertmanagerの設定変更時、 設定の再読み込み処理失敗時に発生 |
処理 |
そのPodのログを確認して ConfigMapの設定エラーを修正する。 |
アラーム ID |
ETC-001 |
レベル |
critical |
アラーム名 |
InsufficientMembers |
持続時間 |
3分 |
発生条件 |
ETCDメトリックの収集ができない場合に発生 |
処理 |
ETCDクラスタの状態を確認する。 Prometheusのログと、そのノードの etcd状態を確認する。 |
アラーム ID |
ETC-002 |
レベル |
critical |
アラーム名 |
NoLeader |
持続時間 |
1分 |
発生条件 |
ETCDリーダーがない場合に発生 |
処理 |
ETCDクラスタの状態を確認する。 Disk Latencyに起因する問題の可能 性があるため、 以下のコマンドをETCDクラスタノード全体で実行する。 (ETCD Tuning) $ sudo ionice -c2 -n0 -p `pgrep etcd` |
アラーム ID |
ETC-003 |
レベル |
warning |
アラーム名 |
HighNumberOfLeaderChanges |
持続時間 |
すぐに |
発生条件 |
最近1時間の間、3回以上のリーダーの変更が発生した場合 |
処理 |
ETCDクラスタの状態を確認する。 Disk Latencyに起因する問題の可能 性があるため、 以下のコマンドをETCDクラスタノード全体で実行する。 (ETCD Tuning) $ sudo ionice -c2 -n0 -p `pgrep etcd` |
アラーム ID |
ETC-004 |
レベル |
warning |
アラーム名 |
HighNumberOfFailedGRPCRequests |
持続時間 |
10分 |
発生条件 |
5分以内に gRPCメソッド呼び出しの 1%以上失敗した場合 |
処理 |
ETCDクラスタと Kubernetesクラスタの 帯域幅を増やしたり、 クラスタの Sacale-Upが必要です。 |
アラーム ID |
ETC-005 |
レベル |
critical |
アラーム名 |
HighNumberOfFailedGRPCRequests |
持続時間 |
5分 |
発生条件 |
5分以内にgRPCメソッド呼び出しの 5%以上失敗した場合 |
処理 |
ETCDクラスタと Kubernetesクラスタの 帯域幅を増やしたり、 クラスタの Sacale-Upが必要です。 |
アラーム ID |
ETC-006 |
レベル |
critical |
アラーム名 |
GRPCRequestsSlow |
持続時間 |
10分 |
発生条件 |
最近5分間gRPCメソッド要求の 待機時間の99パーセンタイル値が 150msを超える場合 |
処理 |
ETCDクラスタと Kubernetesクラスタの 帯域幅を増やしたり、 クラスタの Sacale-Upが必要です。 |
アラーム ID |
ETC-007 |
レベル |
warning |
アラーム名 |
HighNumberOfFailedHTTPRequests |
持続時間 |
10分 |
発生条件 |
5分以内にHTTPエンドポイントへの 要求の1%以上が失敗した場合 |
処理 |
ETCDクラスタと Kubernetesクラスタの 帯域幅を増やしたり、 クラスタの Sacale-Upが必要です。 |
アラーム ID |
ETC-008 |
レベル |
critical |
アラーム名 |
HighNumberOfFailedHTTPRequests |
持続時間 |
5分 |
発生条件 |
5分以内にHTTPエンドポイントへの 要求の5%以上が失敗した場合 |
処理 |
ETCDクラスタと Kubernetesクラスタの 帯域幅を増やしたり、 クラスタの Sacale-Upが必要です。 |
アラーム ID |
ETC-009 |
レベル |
warning |
アラーム名 |
HTTPRequestsSlow |
持続時間 |
10分 |
発生条件 |
最近5分間のHTTPリクエストの待機時間の 99パーセンタイル値が150msを超える場合 |
処理 |
ETCDクラスタと Kubernetesクラスタの 帯域幅を増やしたり、 クラスタの Sacale-Upが必要です。 |
アラーム ID |
ETC-010 |
レベル |
warning |
アラーム名 |
EtcdMemberCommunicationSlow |
持続時間 |
10分 |
発生条件 |
最近5分間のメンバー間の通信の待機時間の 99パーセンタイル値が 150msを超える場合 |
処理 |
ETCDクラスタの帯域幅を増やしたり、 クラスタのScale-Upが必要です。 |
アラーム ID |
ETC-011 |
レベル |
warning |
アラーム名 |
HighNumberOfFailedProposals |
持続時間 |
すぐに |
発生条件 |
最近1時間の間に5つ以上の失敗raft protocol要求がある場合。 (RAFT ProtocolはETCD同期Protocol) |
処理 |
ETCDメトリック文書によると、 リーダー選出の一時的な障害や メンバー不足に起因する。 ETCDクラスタ停止時間が長くなる場合に発生します。 リーダーがいるのか、 中断されたETCDメンバーがいることを確認。 |
アラーム ID |
ETC-012 |
レベル |
warning |
アラーム名 |
HighFsyncDurations |
持続時間 |
10分 |
発生条件 |
最近5分間の wal fsync持続時間の 99パーセンタイル値が 500msを超える場合 (wal fsync: ログエントリを適用する前に、ディスクに保存する時に呼び出される) |
処理 |
ETCDメトリック文書によると、 ディスクに問題がある場合に発生すること。 |
アラーム ID |
ETC-013 |
レベル |
warning |
アラーム名 |
HighCommitDurations |
持続時間 |
10分 |
発生条件 |
最近5分間のコミット持続時間の99パーセンタイル値が 250msを超える場合 (backend commit: ディスクの最近の変更の増分スナップショットの コミットします。) |
処理 |
ETCDメトリック文書によると、 ディスクに問題がある場合に発生すること。 |
アラーム ID |
GEN-001 |
レベル |
warning |
アラーム名 |
TargetDown |
持続時間 |
10分 |
発生条件 |
メトリックの収集作業がない場合に発生。 いくつかの操作が失敗なのか表示。 |
処理 |
Prometheusのログと、 そのタスクに対応するPodの ログとイベントを確認する。 |
アラーム ID |
GEN-002 |
レベル |
none |
アラーム名 |
DeadMansSwitch |
持続時間 |
すぐに |
発生条件 |
DeadMansSwitch通知します。 |
処理 |
このアラームは、 ユーザーに通知されません。 |
アラーム ID |
GEN-003 |
レベル |
critical |
アラーム名 |
TooManyOpenFileDescriptors |
持続時間 |
10分 |
発生条件 |
file descriptor使用率が 95%以上の時に発生 |
処理 |
ノードのLimit値を変更する。(ノードの再起動が必要) |
アラーム ID |
GEN-004 |
レベル |
warning |
アラーム名 |
FdExhaustionClose |
持続時間 |
10分 |
発生条件 |
単純回帰分析(simple linear regression)を利用して、 4時間以内にfile descriptor枯渇が予測される場合に発生 |
処理 |
そのPodのログとイベントを確認する。 必要な場合には、 ノードのLimit値を変更する。 (ノードの再起動が必要) |
アラーム ID |
GEN-005 |
レベル |
critical |
アラーム名 |
FdExhaustionClose |
持続時間 |
10分 |
発生条件 |
単純回帰分析(simple linear regression)を利用して、 1時間以内にfile descriptor枯渇が予測される場合に発生 |
処理 |
そのPodのログとイベントを確認する。 必要な場合には、 ノードのLimit値を変更する。 (ノードの再起動が必要) |
アラーム ID |
KAS-001 |
レベル |
critical |
アラーム名 |
K8SApiserverDown |
持続時間 |
5分 |
発生条件 |
kube-apiserver メトリック収集がない場合に発生 |
処理 |
Prometheusの ログとkube-apiserverの ログとイベントを確認する。 必要な場合には、 Podを再起動する。 |
アラーム ID |
KAS-002 |
レベル |
warning |
アラーム名 |
K8SApiServerLatency |
持続時間 |
10分 |
発生条件 |
最近10分間のリクエスト待機時間の 99パーセンタイル値が 1sよりも大きい場合に発生 |
処理 |
引き続き発生する場合は、 マスターノードを増設する。 |
アラーム ID |
KCM-001 |
レベル |
critical |
アラーム名 |
K8SControllerManagerDown |
持続時間 |
5分 |
発生条件 |
kube-controller-managerの メトリックの収集ができない場合に発生 |
処理 |
Prometheusのログとkube-controller-managerの ログとイベントを確認する。 必要な場合には、 Podを再起動する。 |
アラーム ID |
KSC-001 |
レベル |
critical |
アラーム名 |
K8SSchedulerDown |
持続時間 |
5分 |
発生条件 |
kube-scheduler メトリック収集がない場合に発生 |
処理 |
Prometheusのログとkube-schedulerの ログとイベントを確認する。 必要な場合には、 Podを再起動する。 |
アラーム ID |
KSM-001 |
レベル |
warning |
アラーム名 |
DeploymentGenerationMismatch |
持続時間 |
15分 |
発生条件 |
Deploymentに設定した generationと収集された generationが異なる場合に発生 |
処理 |
Deploymentのログとイベントを確認する。 必要であればDeploymentを再配布する。 |
アラーム ID |
KSM-002 |
レベル |
warning |
アラーム名 |
DeploymentReplicasNotUpdated |
持続時間 |
15分 |
発生条件 |
Deploymentに設定した replica数と変更されたり、 available状態のreplica数が異なる場合に発生 |
処理 |
Deployment変更が反映さがない状態なので、 DeploymentとPodのログとイベントを確認する。 |
アラーム ID |
KSM-003 |
レベル |
warning |
アラーム名 |
DaemonSetRolloutStuck |
持続時間 |
15分 |
発生条件 |
DaemonSetに状態が Readyではない Podがある場合に発生 |
処理 |
そのDaemonsetとPodの ログとイベントを確認する。 |
アラーム ID |
KSM-004 |
レベル |
warning |
アラーム名 |
K8SDaemonSetsNotScheduled |
持続時間 |
10分 |
発生条件 |
DaemonSetに実行されてすることがPod数よりも、 実行中のPod数が小さい場合に発生 |
処理 |
そのDaemonsetとPodのログとイベントを確認する。 配布がないされたノードが正常であることを確認する。 マスターノードが隔離された場合には、 Daemonsetに toleration設定がされているかどうかを確認する。 |
アラーム ID |
KSM-005 |
レベル |
warning |
アラーム名 |
DaemonSetsMissScheduled |
持続時間 |
10分 |
発生条件 |
DaemonSetに間違っスケジュールされた Podが生じた場合に発生 |
処理 |
そのDaemonsetとPodの ログとイベントを確認する。 |
アラーム ID |
KSM-006 |
レベル |
warning |
アラーム名 |
PodFrequentlyRestarting |
持続時間 |
10分 |
発生条件 |
最近1時間の間Pod再起動回数が 5回以上の場合に発生 |
処理 |
そのPodのログとイベントを確認する。 必要であればPodを再起動する。 |
アラーム ID |
KBL-001 |
レベル |
warning |
アラーム名 |
K8SNodeNotReady |
持続時間 |
1時間 |
発生条件 |
Nodeの状態が Readyではない場合に発生 |
処理 |
そのノードの状態とイベントを確認する。 ssh経由でノードに接続して kubeletの状態を確認する。 |
アラーム ID |
KBL-002 |
レベル |
critical |
アラーム名 |
K8SManyNodesNotReady |
持続時間 |
1分 |
発生条件 |
クラスタ全体でNodeの 状態がReadyではない割合が 20%以上である場合に発生 |
処理 |
そのノードの状態とイベントを確認する。 ssh経由でノードに接続して kubeletの状態を確認する。 |
アラーム ID |
KBL-003 |
レベル |
warning |
アラーム名 |
K8SKubeletDown |
持続時間 |
1時間 |
発生条件 |
クラスタ全体で 3%以上のkubeletメトリック収集がない場合に発生 |
処理 |
Prometheusのログと、 そのノードの状態とイベントを確認する。 ssh経由でノードに接続してkubeletの状態を確認する。 |
アラーム ID |
KBL-004 |
レベル |
critical |
アラーム名 |
K8SKubeletDown |
持続時間 |
1時間 |
発生条件 |
クラスタ全体で 10%以上のkubeletメトリック収集がない場合に発生 |
処理 |
Prometheusのログと、 そのノードの状態とイベントを確認する。 ssh経由でノードに接続してkubeletの状態を確認する。 |
アラーム ID |
KBL-005 |
レベル |
warning |
アラーム名 |
K8SKubeletTooManyPods |
持続時間 |
すぐに |
発生条件 |
Nodeの配置されたPodの 数が100を超えると発生 (制限は110) |
処理 |
制限値に達すると、 それ以上Pod生成がしない。 他のノードの状態も同様に 確認して余裕がない場合は、 ノードを増設する。 |
アラーム ID |
NOD-001 |
レベル |
warning |
アラーム名 |
NodeExporterDown |
持続時間 |
10分 |
発生条件 |
NodeExporterメトリックの 収集ができない場合に発生 |
処理 |
Prometheusの ログとNodeExporterの ログとイベントを確認する。 必要な場合には、 Podを再起動する。 |
アラーム ID |
NOD-002 |
レベル |
critical |
アラーム名 |
K8SNodeOutOfDisk |
持続時間 |
すぐに |
発生条件 |
Nodeの状態が OutOfDiskときに発生 |
処理 |
そのノードのディスクを増設する。 |
アラーム ID |
NOD-003 |
レベル |
warning |
アラーム名 |
K8SNodeMemoryPressure |
持続時間 |
すぐに |
発生条件 |
Nodeの状態が MemoryPressureときに発生 |
処理 |
そのノードのメモリを増設する。 |
アラーム ID |
NOD-004 |
レベル |
warning |
アラーム名 |
K8SNodeDiskPressure |
持続時間 |
すぐに |
発生条件 |
Nodeの状態が DiskPressureときに発生 |
処理 |
ノードでは、 ログ、 未使用dodkcer image、 pv backupなどを削除して ディスク領域を確保する。 引き続き発生する場合は、 そのノードのディスクを増設する。 |
アラーム ID |
NOD-005 |
レベル |
warning |
アラーム名 |
NodeCPUUsage |
持続時間 |
30分 |
発生条件 |
Node最近5分間の平均CPU使用率が 90%を超える場合に発生 |
処理 |
そのノードのCPUを増設する。 |
アラーム ID |
NOD-006 |
レベル |
warning |
アラーム名 |
NodeMemoryUsage |
持続時間 |
30分 |
発生条件 |
Node Memory使用量が 90%を超える場合に発生 |
処理 |
そのノードのメモリを増設する。 |
アラーム ID |
PRM-001 |
レベル |
warning |
アラーム名 |
PrometheusFailedReload |
持続時間 |
10分 |
発生条件 |
Prometheusの設定変更時、 設定の再読み込み処理失敗時に発生 |
処理 |
そのPodのログを確認して ConfigMapの設定エラーを修正する。 |
アラーム ID |
CKT-001 |
レベル |
warning |
アラーム名 |
PvLowRequestDisk |
持続時間 |
30分 |
発生条件 |
PVが要求されたディスクのサイズに比べ使用量が 80%を超えると発生 |
処理 |
PVのサイズを増やす。 ただし、 サーバーを再配布必要があること。 |
アラーム ID |
CKT-002 |
レベル |
warning |
アラーム名 |
PvLowTotalDisk |
持続時間 |
30分 |
発生条件 |
PVがマウントされたディスクのサイズに比べ使用量が 80%を超えると発生 |
処理 |
マウントされたディスクの状態を確認して未使用のPVを削除する。 必要であれば、 ディスクを増設する。 |
アラーム ID |
CKT-003 |
レベル |
warning |
アラーム名 |
PodCPULimitUsage |
持続時間 |
30分 |
発生条件 |
Resource Limit設定値に比べCPU使用率が 90%を超えると発生 |
処理 |
引き続き発生する場合は、 DeploymentのCPU Limit値を変更 |
アラーム ID |
CKT-004 |
レベル |
warning |
アラーム名 |
PodMemoryLimitUsage |
持続時間 |
30分 |
発生条件 |
Resource Limit設定値に比べMemory使用率が 90%を超えると発生 |
処理 |
引き続き発生する場合は、 DeploymentのMemory Limit値を変更 |