Powered by GitBook

5.5.1 알람 목록

알람은 다음 목록에서 발생 조건이 지속 시간 만큼 계속될 경우 발생한다.

AlertManager

알람 ID	ALM-001
중요도	warning
알람 이름	AlertmanagerDown
지속 시간	5분
발생 조건	Alertmanager 메트릭 수집이 안 될 경우 발생
조치 사항	Prometheus의 로그 및 Alertmanager의 로그와 이벤트를 확인한다. 필요할 경우, Pod를 재시작한다.

알람 ID	ALM-002
중요도	warning
알람 이름	AlertmanagerFailedReload
지속 시간	10분
발생 조건	Alertmanager의 설정 변경시, 설정 다시읽기 작업 실패시 발생
조치 사항	해당 Pod의 로그를 확인하여 ConfigMap의 설정 오류를 수정한다.

ETCD3

알람 ID	ETC-001
중요도	critical
알람 이름	InsufficientMembers
지속 시간	3분
발생 조건	ETCD 메트릭 수집이 안 될 경우 발생
조치 사항	ETCD 클러스터의 상태를 확인한다. Prometheus의 로그 및 해당 노드의 etcd 상태를 확인한다.

알람 ID	ETC-002
중요도	critical
알람 이름	NoLeader
지속 시간	1분
발생 조건	ETCD 리더가 없을 경우 발생
조치 사항	ETCD 클러스터의 상태를 확인한다. Disk Latency로 인한 문제 일 수 있으므로 다음 명령을 ETCD 클러스터 전체 노드에서 실행한다. (ETCD Tuning) $ sudo ionice -c2 -n0 -p `pgrep etcd`

알람 ID	ETC-003
중요도	warning
알람 이름	HighNumberOfLeaderChanges
지속 시간	즉시
발생 조건	최근 1시간 동안 3번 이상의 리더 변경이 발생할 경우
조치 사항	ETCD 클러스터의 상태를 확인한다. Disk Latency로 인한 문제 일 수 있으므로 다음 명령을 ETCD 클러스터 전체 노드에서 실행한다. (ETCD Tuning) $ sudo ionice -c2 -n0 -p `pgrep etcd`

알람 ID	ETC-004
중요도	warning
알람 이름	HighNumberOfFailedGRPCRequests
지속 시간	10분
발생 조건	최근 5분 이내에 gRPC 메소드 호출의 1% 이상 실패한 경우
조치 사항	ETCD 클러스터와 Kubernetes 클러스터의 대역폭을 늘리거나 클러스터의 Sacale-Up 필요.

알람 ID	ETC-005
중요도	critical
알람 이름	HighNumberOfFailedGRPCRequests
지속 시간	5분
발생 조건	최근 5분 이내에 gRPC 메소드 호출의 5% 이상 실패한 경우
조치 사항	ETCD 클러스터와 Kubernetes 클러스터의 대역폭을 늘리거나 클러스터의 Sacale-Up 필요.

알람 ID	ETC-006
중요도	critical
알람 이름	GRPCRequestsSlow
지속 시간	10분
발생 조건	최근 5분 동안 gRPC 메서드 요청 대기 시간 중 99 번째 백분위가 150ms보다 클 경우
조치 사항	ETCD 클러스터와 Kubernetes 클러스터의 대역폭을 늘리거나 클러스터의 Sacale-Up 필요.

알람 ID	ETC-007
중요도	warning
알람 이름	HighNumberOfFailedHTTPRequests
지속 시간	10분
발생 조건	최근 5분 이내에 HTTP 엔드 포인트에 대한 요청의 1% 이상이 실패한 경우
조치 사항	ETCD 클러스터와 Kubernetes 클러스터의 대역폭을 늘리거나 클러스터의 Sacale-Up 필요.

알람 ID	ETC-008
중요도	critical
알람 이름	HighNumberOfFailedHTTPRequests
지속 시간	5분
발생 조건	최근 5분 이내에 HTTP 엔드 포인트에 대한 요청의 5% 이상이 실패한 경우
조치 사항	ETCD 클러스터와 Kubernetes 클러스터의 대역폭을 늘리거나 클러스터의 Sacale-Up 필요.

알람 ID	ETC-009
중요도	warning
알람 이름	HTTPRequestsSlow
지속 시간	10분
발생 조건	최근 5분 동안의 HTTP 요청 대기 시간 중 99번째 백분위가 150ms보다 클 경우
조치 사항	ETCD 클러스터와 Kubernetes 클러스터의 대역폭을 늘리거나 클러스터의 Sacale-Up 필요.

알람 ID	ETC-010
중요도	warning
알람 이름	EtcdMemberCommunicationSlow
지속 시간	10분
발생 조건	최근 5분 동안의 멤버간 통신 대기 시간 중 99번째 백분위가 150ms보다 클 경우
조치 사항	ETCD 클러스터의 대역폭을 늘리거나 클러스터의 Scale-Up 필요.

알람 ID	ETC-011
중요도	warning
알람 이름	HighNumberOfFailedProposals
지속 시간	즉시
발생 조건	최근 1시간 동안 5개 이상의 실패한 raft protocol 요청이 있을 경우. (RAFT Protocol은 ETCD 동기화 Protocol)
조치 사항	ETCD 메트릭 문서에 따르면 리더 선출의 일시적인 실패 또는 멤버 부족으로 인한 ETCD 클러스터 중단 시간이 길어질 경우 발생합니다. 리더가 있는지, 중단된 ETCD 멤버가 있는지 확인

알람 ID	ETC-012
중요도	warning
알람 이름	HighFsyncDurations
지속 시간	10분
발생 조건	최근 5분 동안의 wal fsync 지속 시간의 99번째 백분위가 500ms보다 클 경우 (wal fsync: 로그 항목을 적용하기 전에 디스크에 저장시 호출.)
조치 사항	ETCD 메트릭 문서에 따르면 디스크에 문제가 있을 경우 발생한다고 함.

알람 ID	ETC-013
중요도	warning
알람 이름	HighCommitDurations
지속 시간	10분
발생 조건	최근 5분 동안의 커밋 지속 시간 중 99번째 백분위가 250ms보다 클 경우 (backend commit: 디스크에 대한 최근 변경 사항의 증분 스냅 샷의 커밋.)
조치 사항	ETCD 메트릭 문서에 따르면 디스크에 문제가 있을 경우 발생한다고 함.

General

알람 ID	GEN-001
중요도	warning
알람 이름	TargetDown
지속 시간	10분
발생 조건	메트릭 수집 작업이 안 될 경우 발생. 어떤 작업이 실패인지 표시됨.
조치 사항	Prometheus의 로그 및 해당 작업에 해당하는 Pod의 로그 및 이벤트를 확인한다.

알람 ID	GEN-002
중요도	~~none~~
알람 이름	DeadMansSwitch
지속 시간	즉시
발생 조건	DeadMansSwitch 알림.
조치 사항	해당 알람은 사용자에게 통지되지 않습니다.

알람 ID	GEN-003
중요도	critical
알람 이름	TooManyOpenFileDescriptors
지속 시간	10분
발생 조건	file descriptor 사용율이 95%이상 일때 발생
조치 사항	노드의 Limit값을 변경한다.(노드의 재시작 필요)

알람 ID	GEN-004
중요도	warning
알람 이름	FdExhaustionClose
지속 시간	10분
발생 조건	단순회귀분석(simple linear regression)을 이용하여 4시간 이내에 file descriptor 고갈이 예측될 경우 발생
조치 사항	해당 Pod의 로그 및 이벤트를 확인한다. 필요할 경우, 노드의 Limit값을 변경한다.(노드의 재시작 필요)

알람 ID	GEN-005
중요도	critical
알람 이름	FdExhaustionClose
지속 시간	10분
발생 조건	단순회귀분석(simple linear regression)을 이용하여 1시간 이내에 file descriptor 고갈이 예측될 경우 발생
조치 사항	해당 Pod의 로그 및 이벤트를 확인한다. 필요할 경우, 노드의 Limit값을 변경한다.(노드의 재시작 필요)

Kube-ApiServer

알람 ID	KAS-001
중요도	critical
알람 이름	K8SApiserverDown
지속 시간	5분
발생 조건	kube-apiserver 메트릭 수집이 안 될 경우 발생
조치 사항	Prometheus의 로그 및 kube-apiserver의 로그와 이벤트를 확인한다. 필요할 경우, Pod를 재시작한다.

알람 ID	KAS-002
중요도	warning
알람 이름	K8SApiServerLatency
지속 시간	10분
발생 조건	최근 10분 동안의 요청 대기 시간 중 99번째 백분위가 1s보다 클 경우 발생
조치 사항	계속 발생할 경우, 마스터 노드를 증설한다.

Kube-ControllerManager

알람 ID	KCM-001
중요도	critical
알람 이름	K8SControllerManagerDown
지속 시간	5분
발생 조건	kube-controller-manager 메트릭 수집이 안 될 경우 발생
조치 사항	Prometheus의 로그 및 kube-controller-manager의 로그와 이벤트를 확인한다. 필요할 경우, Pod를 재시작한다.

Kube-Scheduler

알람 ID	KSC-001
중요도	critical
알람 이름	K8SSchedulerDown
지속 시간	5분
발생 조건	kube-scheduler 메트릭 수집이 안 될 경우 발생
조치 사항	Prometheus의 로그 및 kube-scheduler의 로그와 이벤트를 확인한다. 필요할 경우, Pod를 재시작한다.

Kube-State-Metrics

알람 ID	KSM-001
중요도	warning
알람 이름	DeploymentGenerationMismatch
지속 시간	15분
발생 조건	Deployment에 설정한 generation과 수집된 generation이 다를 경우 발생
조치 사항	Deployment의 로그 및 이벤트를 확인한다. 필요하면 Deployment를 재배포한다.

알람 ID	KSM-002
중요도	warning
알람 이름	DeploymentReplicasNotUpdated
지속 시간	15분
발생 조건	Deployment에 설정한 replica 개수와 변경되거나 available 상태의 replica 개수가 다를 경우 발생
조치 사항	Deployment 수정 사항이 반영이 안 된 상태이므로 Deployment 및 Pod의 로그 및 이벤트를 확인한다.

알람 ID	KSM-003
중요도	warning
알람 이름	DaemonSetRolloutStuck
지속 시간	15분
발생 조건	DaemonSet에 상태가 Ready가 아닌 Pod가 있을 경우 발생
조치 사항	해당 Daemonset과 Pod의 로그 및 이벤트를 확인한다.

알람 ID	KSM-004
중요도	warning
알람 이름	K8SDaemonSetsNotScheduled
지속 시간	10분
발생 조건	DaemonSet에 실행되어 할 Pod 개수 보다 실행중인 Pod 개수가 작을 경우 발생
조치 사항	해당 Daemonset과 Pod의 로그 및 이벤트를 확인한다. 배포가 안 된 노드가 정상인지 확인한다. 마스터 노드가 격리된 경우, Daemonset에 toleration 설정이 되어 있는지 확인한다.

알람 ID	KSM-005
중요도	warning
알람 이름	DaemonSetsMissScheduled
지속 시간	10분
발생 조건	DaemonSet에 잘못 스케쥴된 Pod가 생겼을 경우 발생
조치 사항	해당 Daemonset과 Pod의 로그 및 이벤트를 확인한다.

알람 ID	KSM-006
중요도	warning
알람 이름	PodFrequentlyRestarting
지속 시간	10분
발생 조건	최근 1시간 동안 Pod 재시작 횟수가 5회 이상일 경우 발생
조치 사항	해당 Pod의 로그 및 이벤트를 확인한다. 필요하면 Pod를 재시작한다.

Kubelet

알람 ID	KBL-001
중요도	warning
알람 이름	K8SNodeNotReady
지속 시간	1시간
발생 조건	Node 상태가 Ready가 아닐 경우 발생
조치 사항	해당 노드의 상태 및 이벤트를 확인한다. ssh를 통해 노드에 접속하여 kubelet의 상태를 확인한다.

알람 ID	KBL-002
중요도	critical
알람 이름	K8SManyNodesNotReady
지속 시간	1분
발생 조건	클러스터 전체에서 Node 상태가 Ready가 아닌 비율이 20%이상일 경우 발생
조치 사항	해당 노드들의 상태 및 이벤트를 확인한다. ssh를 통해 노드에 접속하여 kubelet의 상태를 확인한다.

알람 ID	KBL-003
중요도	warning
알람 이름	K8SKubeletDown
지속 시간	1시간
발생 조건	클러스터 전체에서 3%이상의 kubelet 메트릭 수집이 안 될 경우 발생
조치 사항	Prometheus의 로그 및 해당 노드의 상태 및 이벤트를 확인한다. ssh를 통해 노드에 접속하여 kubelet의 상태를 확인한다.

알람 ID	KBL-004
중요도	critical
알람 이름	K8SKubeletDown
지속 시간	1시간
발생 조건	클러스터 전체에서 10%이상의 kubelet 메트릭 수집이 안 될 경우 발생
조치 사항	Prometheus의 로그 및 해당 노드들의 상태 및 이벤트를 확인한다. ssh를 통해 노드에 접속하여 kubelet의 상태를 확인한다.

알람 ID	KBL-005
중요도	warning
알람 이름	K8SKubeletTooManyPods
지속 시간	즉시
발생 조건	Node의 배치된 Pod의 수가 100개가 넘으면 발생.(제한값은 110)
조치 사항	제한값에 도달할 경우, 더 이상 Pod 생성이 안됨. 다른 노드들의 상태도 같이 확인하여 여유가 없을 경우, 노드를 증설한다.

Node

알람 ID	NOD-001
중요도	warning
알람 이름	NodeExporterDown
지속 시간	10분
발생 조건	NodeExporter 메트릭 수집이 안 될 경우 발생
조치 사항	Prometheus의 로그 및 NodeExporter의 로그와 이벤트를 확인한다. 필요할 경우, Pod를 재시작한다.

알람 ID	NOD-002
중요도	critical
알람 이름	K8SNodeOutOfDisk
지속 시간	즉시
발생 조건	Node 상태가 OutOfDisk일 때 발생
조치 사항	해당 노드의 디스크를 증설한다.

알람 ID	NOD-003
중요도	warning
알람 이름	K8SNodeMemoryPressure
지속 시간	즉시
발생 조건	Node 상태가 MemoryPressure일 때 발생
조치 사항	해당 노드의 메모리를 증설한다.

알람 ID	NOD-004
중요도	warning
알람 이름	K8SNodeDiskPressure
지속 시간	즉시
발생 조건	Node 상태가 DiskPressure일 때 발생
조치 사항	노드에서 로그, 미사용 dodkcer image, pv backup등을 삭제하여 디스크 공간을 확보한다. 계속 발생할 경우, 해당 노드의 디스크를 증설한다.

알람 ID	NOD-005
중요도	warning
알람 이름	NodeCPUUsage
지속 시간	30분
발생 조건	Node 최근 5분간 평균 CPU 사용량이 90%를 넘을 경우 발생
조치 사항	해당 노드의 CPU를 증설한다.

알람 ID	NOD-006
중요도	warning
알람 이름	NodeMemoryUsage
지속 시간	30분
발생 조건	Node Memory 사용량이 90%를 넘을 경우 발생
조치 사항	해당 노드의 메모리를 증설한다.

Prometheus

알람 ID	PRM-001
중요도	warning
알람 이름	PrometheusFailedReload
지속 시간	10분
발생 조건	Prometheus의 설정 변경시, 설정 다시읽기 작업 실패시 발생
조치 사항	해당 Pod의 로그를 확인하여 ConfigMap의 설정 오류를 수정한다.

Cocktail

알람 ID	CKT-001
중요도	warning
알람 이름	PvLowRequestDisk
지속 시간	30분
발생 조건	PV가 요청한 디스크의 크기 대비 사용량이 80%가 넘으면 발생
조치 사항	PV의 크기를 늘린다. 단, 서버를 재배포 해야함.

알람 ID	CKT-002
중요도	warning
알람 이름	PvLowTotalDisk
지속 시간	30분
발생 조건	PV가 마운트된 디스크의 크기 대비 사용량이 80%가 넘으면 발생
조치 사항	마운트된 디스크의 상태를 확인하고 미사용 PV를 제거한다. 필요하면 디스크를 증설한다.

알람 ID	CKT-003
중요도	warning
알람 이름	PodCPULimitUsage
지속 시간	30분
발생 조건	Resource Limit 설정값 대비 CPU 사용율이 90%가 넘으면 발생
조치 사항	계속 발생할 경우, Deployment의 CPU Limit 값 변경

알람 ID	CKT-004
중요도	warning
알람 이름	PodMemoryLimitUsage
지속 시간	30분
발생 조건	Resource Limit 설정값 대비 Memory 사용율이 90%가 넘으면 발생
조치 사항	계속 발생할 경우, Deployment의 Memory Limit 값 변경

results matching ""

No results matching ""