Powered by GitBook

5.5.1 アラームリスト

アラームは、次のリストから発生条件が持続時間だけ継続した場合に発生する。

AlertManager

アラーム ID	ALM-001
レベル	warning
アラーム名	AlertmanagerDown
持続時間	5分
発生条件	Alertmanagerメトリックの収集ができない場合に発生
処理	Prometheusのログと Alertmanagerのログとイベントを確認する。必要な場合には、Podを再起動する。

アラーム ID	ALM-002
レベル	warning
アラーム名	AlertmanagerFailedReload
持続時間	10分
発生条件	Alertmanagerの設定変更時、設定の再読み込み処理失敗時に発生
処理	そのPodのログを確認して ConfigMapの設定エラーを修正する。

ETCD3

アラーム ID	ETC-001
レベル	critical
アラーム名	InsufficientMembers
持続時間	3分
発生条件	ETCDメトリックの収集ができない場合に発生
処理	ETCDクラスタの状態を確認する。 Prometheusのログと、そのノードの etcd状態を確認する。

アラーム ID	ETC-002
レベル	critical
アラーム名	NoLeader
持続時間	1分
発生条件	ETCDリーダーがない場合に発生
処理	ETCDクラスタの状態を確認する。 Disk Latencyに起因する問題の可能性があるため、以下のコマンドをETCDクラスタノード全体で実行する。 (ETCD Tuning) $ sudo ionice -c2 -n0 -p `pgrep etcd`

アラーム ID	ETC-003
レベル	warning
アラーム名	HighNumberOfLeaderChanges
持続時間	すぐに
発生条件	最近1時間の間、3回以上のリーダーの変更が発生した場合
処理	ETCDクラスタの状態を確認する。 Disk Latencyに起因する問題の可能性があるため、以下のコマンドをETCDクラスタノード全体で実行する。 (ETCD Tuning) $ sudo ionice -c2 -n0 -p `pgrep etcd`

アラーム ID	ETC-004
レベル	warning
アラーム名	HighNumberOfFailedGRPCRequests
持続時間	10分
発生条件	5分以内に gRPCメソッド呼び出しの 1％以上失敗した場合
処理	ETCDクラスタと Kubernetesクラスタの帯域幅を増やしたり、クラスタの Sacale-Upが必要です。

アラーム ID	ETC-005
レベル	critical
アラーム名	HighNumberOfFailedGRPCRequests
持続時間	5分
発生条件	5分以内にgRPCメソッド呼び出しの 5％以上失敗した場合
処理	ETCDクラスタと Kubernetesクラスタの帯域幅を増やしたり、クラスタの Sacale-Upが必要です。

アラーム ID	ETC-006
レベル	critical
アラーム名	GRPCRequestsSlow
持続時間	10分
発生条件	最近5分間gRPCメソッド要求の待機時間の99パーセンタイル値が 150msを超える場合
処理	ETCDクラスタと Kubernetesクラスタの帯域幅を増やしたり、クラスタの Sacale-Upが必要です。

アラーム ID	ETC-007
レベル	warning
アラーム名	HighNumberOfFailedHTTPRequests
持続時間	10分
発生条件	5分以内にHTTPエンドポイントへの要求の1％以上が失敗した場合
処理	ETCDクラスタと Kubernetesクラスタの帯域幅を増やしたり、クラスタの Sacale-Upが必要です。

アラーム ID	ETC-008
レベル	critical
アラーム名	HighNumberOfFailedHTTPRequests
持続時間	5分
発生条件	5分以内にHTTPエンドポイントへの要求の5％以上が失敗した場合
処理	ETCDクラスタと Kubernetesクラスタの帯域幅を増やしたり、クラスタの Sacale-Upが必要です。

アラーム ID	ETC-009
レベル	warning
アラーム名	HTTPRequestsSlow
持続時間	10分
発生条件	最近5分間のHTTPリクエストの待機時間の 99パーセンタイル値が150msを超える場合
処理	ETCDクラスタと Kubernetesクラスタの帯域幅を増やしたり、クラスタの Sacale-Upが必要です。

アラーム ID	ETC-010
レベル	warning
アラーム名	EtcdMemberCommunicationSlow
持続時間	10分
発生条件	最近5分間のメンバー間の通信の待機時間の 99パーセンタイル値が 150msを超える場合
処理	ETCDクラスタの帯域幅を増やしたり、クラスタのScale-Upが必要です。

アラーム ID	ETC-011
レベル	warning
アラーム名	HighNumberOfFailedProposals
持続時間	すぐに
発生条件	最近1時間の間に5つ以上の失敗raft protocol要求がある場合。（RAFT ProtocolはETCD同期Protocol）
処理	ETCDメトリック文書によると、リーダー選出の一時的な障害やメンバー不足に起因する。 ETCDクラスタ停止時間が長くなる場合に発生します。リーダーがいるのか、中断されたETCDメンバーがいることを確認。

アラーム ID	ETC-012
レベル	warning
アラーム名	HighFsyncDurations
持続時間	10分
発生条件	最近5分間の wal fsync持続時間の 99パーセンタイル値が 500msを超える場合 (wal fsync: ログエントリを適用する前に、ディスクに保存する時に呼び出される)
処理	ETCDメトリック文書によると、ディスクに問題がある場合に発生すること。

アラーム ID	ETC-013
レベル	warning
アラーム名	HighCommitDurations
持続時間	10分
発生条件	最近5分間のコミット持続時間の99パーセンタイル値が 250msを超える場合（backend commit: ディスクの最近の変更の増分スナップショットのコミットします。）
処理	ETCDメトリック文書によると、ディスクに問題がある場合に発生すること。

General

アラーム ID	GEN-001
レベル	warning
アラーム名	TargetDown
持続時間	10分
発生条件	メトリックの収集作業がない場合に発生。いくつかの操作が失敗なのか表示。
処理	Prometheusのログと、そのタスクに対応するPodのログとイベントを確認する。

アラーム ID	GEN-002
レベル	~~none~~
アラーム名	DeadMansSwitch
持続時間	すぐに
発生条件	DeadMansSwitch通知します。
処理	このアラームは、ユーザーに通知されません。

アラーム ID	GEN-003
レベル	critical
アラーム名	TooManyOpenFileDescriptors
持続時間	10分
発生条件	file descriptor使用率が 95％以上の時に発生
処理	ノードのLimit値を変更する。（ノードの再起動が必要）

アラーム ID	GEN-004
レベル	warning
アラーム名	FdExhaustionClose
持続時間	10分
発生条件	単純回帰分析（simple linear regression）を利用して、 4時間以内にfile descriptor枯渇が予測される場合に発生
処理	そのPodのログとイベントを確認する。必要な場合には、ノードのLimit値を変更する。（ノードの再起動が必要）

アラーム ID	GEN-005
レベル	critical
アラーム名	FdExhaustionClose
持続時間	10分
発生条件	単純回帰分析（simple linear regression）を利用して、 1時間以内にfile descriptor枯渇が予測される場合に発生
処理	そのPodのログとイベントを確認する。必要な場合には、ノードのLimit値を変更する。（ノードの再起動が必要）

Kube-ApiServer

アラーム ID	KAS-001
レベル	critical
アラーム名	K8SApiserverDown
持続時間	5分
発生条件	kube-apiserver メトリック収集がない場合に発生
処理	Prometheusのログとkube-apiserverのログとイベントを確認する。必要な場合には、 Podを再起動する。

アラーム ID	KAS-002
レベル	warning
アラーム名	K8SApiServerLatency
持続時間	10分
発生条件	最近10分間のリクエスト待機時間の 99パーセンタイル値が 1sよりも大きい場合に発生
処理	引き続き発生する場合は、マスターノードを増設する。

Kube-ControllerManager

アラーム ID	KCM-001
レベル	critical
アラーム名	K8SControllerManagerDown
持続時間	5分
発生条件	kube-controller-managerのメトリックの収集ができない場合に発生
処理	Prometheusのログとkube-controller-managerのログとイベントを確認する。必要な場合には、 Podを再起動する。

Kube-Scheduler

アラーム ID	KSC-001
レベル	critical
アラーム名	K8SSchedulerDown
持続時間	5分
発生条件	kube-scheduler メトリック収集がない場合に発生
処理	Prometheusのログとkube-schedulerのログとイベントを確認する。必要な場合には、 Podを再起動する。

Kube-State-Metrics

アラーム ID	KSM-001
レベル	warning
アラーム名	DeploymentGenerationMismatch
持続時間	15分
発生条件	Deploymentに設定した generationと収集された generationが異なる場合に発生
処理	Deploymentのログとイベントを確認する。必要であればDeploymentを再配布する。

アラーム ID	KSM-002
レベル	warning
アラーム名	DeploymentReplicasNotUpdated
持続時間	15分
発生条件	Deploymentに設定した replica数と変更されたり、 available状態のreplica数が異なる場合に発生
処理	Deployment変更が反映さがない状態なので、 DeploymentとPodのログとイベントを確認する。

アラーム ID	KSM-003
レベル	warning
アラーム名	DaemonSetRolloutStuck
持続時間	15分
発生条件	DaemonSetに状態が Readyではない Podがある場合に発生
処理	そのDaemonsetとPodのログとイベントを確認する。

アラーム ID	KSM-004
レベル	warning
アラーム名	K8SDaemonSetsNotScheduled
持続時間	10分
発生条件	DaemonSetに実行されてすることがPod数よりも、実行中のPod数が小さい場合に発生
処理	そのDaemonsetとPodのログとイベントを確認する。配布がないされたノードが正常であることを確認する。マスターノードが隔離された場合には、 Daemonsetに toleration設定がされているかどうかを確認する。

アラーム ID	KSM-005
レベル	warning
アラーム名	DaemonSetsMissScheduled
持続時間	10分
発生条件	DaemonSetに間違っスケジュールされた Podが生じた場合に発生
処理	そのDaemonsetとPodのログとイベントを確認する。

アラーム ID	KSM-006
レベル	warning
アラーム名	PodFrequentlyRestarting
持続時間	10分
発生条件	最近1時間の間Pod再起動回数が 5回以上の場合に発生
処理	そのPodのログとイベントを確認する。必要であればPodを再起動する。

Kubelet

アラーム ID	KBL-001
レベル	warning
アラーム名	K8SNodeNotReady
持続時間	1時間
発生条件	Nodeの状態が Readyではない場合に発生
処理	そのノードの状態とイベントを確認する。 ssh経由でノードに接続して kubeletの状態を確認する。

アラーム ID	KBL-002
レベル	critical
アラーム名	K8SManyNodesNotReady
持続時間	1分
発生条件	クラスタ全体でNodeの状態がReadyではない割合が 20％以上である場合に発生
処理	そのノードの状態とイベントを確認する。 ssh経由でノードに接続して kubeletの状態を確認する。

アラーム ID	KBL-003
レベル	warning
アラーム名	K8SKubeletDown
持続時間	1時間
発生条件	クラスタ全体で 3％以上のkubeletメトリック収集がない場合に発生
処理	Prometheusのログと、そのノードの状態とイベントを確認する。 ssh経由でノードに接続してkubeletの状態を確認する。

アラーム ID	KBL-004
レベル	critical
アラーム名	K8SKubeletDown
持続時間	1時間
発生条件	クラスタ全体で 10％以上のkubeletメトリック収集がない場合に発生
処理	Prometheusのログと、そのノードの状態とイベントを確認する。 ssh経由でノードに接続してkubeletの状態を確認する。

アラーム ID	KBL-005
レベル	warning
アラーム名	K8SKubeletTooManyPods
持続時間	すぐに
発生条件	Nodeの配置されたPodの数が100を超えると発生（制限は110）
処理	制限値に達すると、それ以上Pod生成がしない。他のノードの状態も同様に確認して余裕がない場合は、ノードを増設する。

Node

アラーム ID	NOD-001
レベル	warning
アラーム名	NodeExporterDown
持続時間	10分
発生条件	NodeExporterメトリックの収集ができない場合に発生
処理	PrometheusのログとNodeExporterのログとイベントを確認する。必要な場合には、 Podを再起動する。

アラーム ID	NOD-002
レベル	critical
アラーム名	K8SNodeOutOfDisk
持続時間	すぐに
発生条件	Nodeの状態が OutOfDiskときに発生
処理	そのノードのディスクを増設する。

アラーム ID	NOD-003
レベル	warning
アラーム名	K8SNodeMemoryPressure
持続時間	すぐに
発生条件	Nodeの状態が MemoryPressureときに発生
処理	そのノードのメモリを増設する。

アラーム ID	NOD-004
レベル	warning
アラーム名	K8SNodeDiskPressure
持続時間	すぐに
発生条件	Nodeの状態が DiskPressureときに発生
処理	ノードでは、ログ、未使用dodkcer image、 pv backupなどを削除してディスク領域を確保する。引き続き発生する場合は、そのノードのディスクを増設する。

アラーム ID	NOD-005
レベル	warning
アラーム名	NodeCPUUsage
持続時間	30分
発生条件	Node最近5分間の平均CPU使用率が 90％を超える場合に発生
処理	そのノードのCPUを増設する。

アラーム ID	NOD-006
レベル	warning
アラーム名	NodeMemoryUsage
持続時間	30分
発生条件	Node Memory使用量が 90％を超える場合に発生
処理	そのノードのメモリを増設する。

Prometheus

アラーム ID	PRM-001
レベル	warning
アラーム名	PrometheusFailedReload
持続時間	10分
発生条件	Prometheusの設定変更時、設定の再読み込み処理失敗時に発生
処理	そのPodのログを確認して ConfigMapの設定エラーを修正する。

Cocktail

アラーム ID	CKT-001
レベル	warning
アラーム名	PvLowRequestDisk
持続時間	30分
発生条件	PVが要求されたディスクのサイズに比べ使用量が 80％を超えると発生
処理	PVのサイズを増やす。ただし、サーバーを再配布必要があること。

アラーム ID	CKT-002
レベル	warning
アラーム名	PvLowTotalDisk
持続時間	30分
発生条件	PVがマウントされたディスクのサイズに比べ使用量が 80％を超えると発生
処理	マウントされたディスクの状態を確認して未使用のPVを削除する。必要であれば、ディスクを増設する。

アラーム ID	CKT-003
レベル	warning
アラーム名	PodCPULimitUsage
持続時間	30分
発生条件	Resource Limit設定値に比べCPU使用率が 90％を超えると発生
処理	引き続き発生する場合は、 DeploymentのCPU Limit値を変更

アラーム ID	CKT-004
レベル	warning
アラーム名	PodMemoryLimitUsage
持続時間	30分
発生条件	Resource Limit設定値に比べMemory使用率が 90％を超えると発生
処理	引き続き発生する場合は、 DeploymentのMemory Limit値を変更

results matching ""

No results matching ""