[ Datadog ] Metric Monitor

Print

Metric을 이용하여 Monitor를 구성합니다.

  1. Choose the detection method

    Metric Monitor의 Type을 선택합니다.
    - Threshold Alert : 메트릭 값을 정적 임계값과 비교합니다.
    - Change Alert : N분 전과 현재 간의 값의 절대적 또는 상대적(%) 변경을 주어진 임계값과 비교합니다
    - Anomaly Detection : 과거 동작을 사용하여 메트릭이 비정상적으로 동작하는 시기를 감지합니다.
    - Qutliers Alert : 그룹의 구성원(호스트, 가용 영역, 파티션 등)이 나머지와 비교하여 비정상적으로
    동작하는 때를 감지합니다.
    - Forecast Alert : 메트릭의 향후 동작을 예측하고 이를 정적 임계값과 비교합니다.

  2. Define the metric
    모니터링할 Metric을 선택합니다.

    Metric 선택합니다. from절에서 모니터링할 대상을 지정 할 수 있습니다. (tag-value 방식), avg(min/max/sum) by 선택 후 그룹화할 tag를 설정할 수 있습니다. (host 선택시 host별로 알람발생)
    여러개의 Metric을 추가 및 계산하는 방식을 이용해 모니터링 할 수 있습니다.

  3. Set alert conditions
    이 1번 에서 선택한 Metric Monitor type에 따라 Set Alert Conditions 가 변경됩니다.

    • 알람이 발생되는 기준과 시간을 설정합니다. (type 별로 설정이 다르나 서술형으로 조합됩니다.)

    • 임계치를 설정합니다. (Advanced Recovery 항목이 있는경우 alert/warning 해제 임계치를 설정합니다.)

    • Advanced Alert 을 통해 알람해제 기능/신규그룹에 대한 알람적용 wait 시간 설정/ 계산시 delay 시간 조정이 가능합니다.

  4. Notify your team
    알람을 전파 받을 대상(메일)을 선택하거나, Integration에서 설정된 채널을 목록에서 선택 합니다.

    image-20240223-083015.png
    • Alert Title : 알람 발생시 전파되는 Message의 제목입니다.
      - 예시 : [경고] {{host.name}} 서버의 CPU 사용량이 높습니다.

    • Alert Message
      - 알람 발생시 전파되는 Message의 내용입니다.
      - 예시

      {{#is_alert}}  
      
       발생시간(KST): {{local_time 'last_triggered_at' 'Asia/Seoul'}} 
        
      ## {{host.name}} ({{host.ip}})  서버의 CPU 사용량이 현재 5분 동안 평균 {{value}}  입니다.  확인 하시기 바랍니다.
      
      {{/is_alert}} 
      
      
      {{#is_alert_recovery}}
      
       발생시간(KST): {{local_time 'last_triggered_at' 'Asia/Seoul'}} 
        
      ## [해제] {{host.name}} ({{host.ip}}) 서버의 CPU 사용량이 현재 {{threshold}} 이하로 떨어졌습니다.
      
      {{/is_alert_recovery}}
    • Use Message Template Variables
      Alert title과 Message 본문에 사용 가능한 Template 및 변수 사용법을 확인할 수 있습니다.
      사용가능한 변수 참고 : https://docs.datadoghq.com/monitors/notify/variables/?tab=is_alert

    • Notify your services and your team members 설정
      opsgenie / slack / TEAMS / webhook 등 integration된 채널 및 email 등의 Noti 채널이 표시됩니다.
      알람을 전파할 채널 혹은 대상 email을 설정하시기 바랍니다.

    • Content displayed 설정(Message 구성 내용 설정)
      query / snapshot 등 자동 추가되는 내용을 Message에 포함 할지 여부 설정 합니다.

    • Include Triggering tags in notification title 설정
      알람 발생시 전파되는 Message의 제목에 알람이 발생된 대상에 대한 tag를 표시합니다.

    • Aggregation 설정
      Set alert conditions 에서 선택한 Group 이 있는 경우 자동으로 multi alert으로 선택됩니다.

    • Renotification 설정
      Alert(Warning) 혹은 Nodata가  지속될 경우 선택한 시간마다 재알람을 전파합니다.

    • Tags 설정
      Manage Monitors 에서 조회시, Downtime schedule 설정시 사용가능한
      moniotor를 위한 Tag를 설정합니다.

    • Priority 설정
      P1~P5로 알람의 심각도(중요도) 등을 설정합니다.
      Priority 설정 ( 표준화 진행으로 아래의 기준으로 설정)

  5. Define permissions and audit notifications
    해당 monitor의 수정 권한 및 수정시 noti에 대한 설정을 합니다.

이 답변이 유용합니까? 아니오

Send feedback
도움이 되어드리지 못해 죄송합니다. 아티클 개선을 위해 의견을 제공해 주시기 바랍니다.