feat (monitoring): [alerts] enable new recommended experience for aks clusters #435

ferantivero · 2024-11-01T19:46:29Z

WHY?

We do wanted to switch from legacy/retired container insights metric alert rules to the new recommend Prometheus metric alert rules

WHAT Changed?

Test

Pod level alert: at least one Job instance did not complete successfully for the last 6 hours.

Pod level alert: The average CPU usage per container exceeds 95% for the last 5 minutes.

…erAverageMemoryHigh Pod level alert: The average memory usage per container exceeds 95% for the last 5 minutes

Pod level alert: One or more pods is in a failed state for the last 5 minutes

Platform level alert Node cpu percentage is replacing this

no replacement available

Node level alert: A node has been unreachable for the last 15 minutes

Platform level alert Node memory working set percentage is greater than 100% is replacing this

…edCount Cluster level alert: One or more containers within pods have been killed due to out-of-memory (OOM) events for the last 5 minutes

Pod level alert: The average usage of Persistent Volumes (PVs) on pod exceeds 80% for the last 15 minutes

Pod level alert: The percentage of pods in a ready state falls below 80% for any deployment or daemonset in the Kubernetes cluster for the last 5 minutes

…rRestart Pod level alert: One or more containers within pods in the Kubernetes cluster have been restarted at least once within the last hour

johndowns

@ferantivero thanks for this! I can see a ton of work here - thanks so much. The changes all make sense.

We should ensure we link to the Recommended alert rules for Kubernetes clusters in the reference architecture too, to make sure it's clear where these came from.

ferantivero · 2024-11-19T20:04:06Z

#sign-off please let's consider merging this once we landed the desired changes at the RA level

ferantivero added 17 commits November 1, 2024 16:44

enable new recommended alert rules

828fd66

replace legacy Completed job count CI alert w/ KubeJobStale

07d62c7

Pod level alert: at least one Job instance did not complete successfully for the last 6 hours.

replace legacy Container CPU % CI alert w/ KubeContainerAverageCPUHigh

098242a

Pod level alert: The average CPU usage per container exceeds 95% for the last 5 minutes.

replace legacy Container working set memory % CI alert w/ KubeContain…

0853d3b

…erAverageMemoryHigh Pod level alert: The average memory usage per container exceeds 95% for the last 5 minutes

replace legacy Failed Pod counts CI alert w/ KubePodFailedState

d1585a9

Pod level alert: One or more pods is in a failed state for the last 5 minutes

disabling legacy Node CPU % CI alert

68581e2

Platform level alert Node cpu percentage is replacing this

disabling legacy Node Disk Usage % CI alert

2b29202

no replacement available

replace legacy Node NotReady status CI alert w/ KubeNodeUnreachable

c8b46c9

Node level alert: A node has been unreachable for the last 15 minutes

disabling legacy Node working set memory % CI alert

dff578e

Platform level alert Node memory working set percentage is greater than 100% is replacing this

replace legacy OOM Killed Containers CI alert w/ KubeContainerOOMKill…

d0becd6

…edCount Cluster level alert: One or more containers within pods have been killed due to out-of-memory (OOM) events for the last 5 minutes

replace legacy Persistent Volume Usage % CI alert w/ KubePVUsageHigh

9adcf3b

Pod level alert: The average usage of Persistent Volumes (PVs) on pod exceeds 80% for the last 15 minutes

replace legacy Pods ready % CI alert w/ KubePodReadyStateLow

5c07b9a

Pod level alert: The percentage of pods in a ready state falls below 80% for any deployment or daemonset in the Kubernetes cluster for the last 5 minutes

replace legacy Restarting container count CI alert w/ KubePodContaine…

8aab44b

…rRestart Pod level alert: One or more containers within pods in the Kubernetes cluster have been restarted at least once within the last hour

add extra recommended Prometheus Pod level metric alert rules

decf1db

add extra recommended Prometheus Node level metric alert rules

36f9e57

add extra recommended Prometheus Cluster level metric alert rules

779d85f

remove unsed module

40ab855

ferantivero marked this pull request as ready for review November 9, 2024 02:16

johndowns approved these changes Nov 18, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat (monitoring): [alerts] enable new recommended experience for aks clusters #435

feat (monitoring): [alerts] enable new recommended experience for aks clusters #435

ferantivero commented Nov 1, 2024 •

edited

Loading

johndowns left a comment

ferantivero commented Nov 19, 2024

feat (monitoring): [alerts] enable new recommended experience for aks clusters #435

Are you sure you want to change the base?

feat (monitoring): [alerts] enable new recommended experience for aks clusters #435

Conversation

ferantivero commented Nov 1, 2024 • edited Loading

WHY?

WHAT Changed?

Test

johndowns left a comment

Choose a reason for hiding this comment

ferantivero commented Nov 19, 2024

ferantivero commented Nov 1, 2024 •

edited

Loading