[ Datadog ] Datadog를 활용한 AIOps #1 - Watchdog 주요기능

monitoring admin 수정 날짜: 수, 3월 5, 2025 시간: 4:04 PM

Watchdog 경고 확인
Watchdog Impact Analysis
Watchdog Insights
Watchdog RCA(Root Cause Analysis)
Watchdog Automatic Faulty Deployment Detection
Watchdog Automatic Faulty Cloud & SaaS API Detection

Watchdog 는 Datadog의 AI엔진으로 APM, Infrastructure 및 Logs를 위한 알고리즘 기능입니다. 메트릭 및 로그의 추세와 패턴을 지속적으로 관찰하고 비정형적인 동작을 찾아 잠재적인 문제를 자동으로 감지합니다.

Watchdog 경고 확인

우선 Datadog Console > Watchdog 메뉴에서 Datadog가 자동적으로 감지한 경고 목록을 확인할 수 있습니다.

Log : 경고 또는 오류상태를 나타내는 로그가 나타나거나, 그러한 로그가 갑자기 증가하는 경우
APM & USM : Error Rate, Latency, Hits(Request Rate)에 대한 이상 징후를 감지합니다.
Infra : Infra 지표상의 이상 징후를 감지 합니다.

* 참고 Docs : Watchdog Alerts coverage

기본적으로 watchdog는 기존의 데이터를 기반으로 이상징후를 감지합니다. 로그는 최소 24시간동안의 데이터가 필요하고,

Metric의 경우 2주간의 데이터가 필요합니다. 각각 최소 데이터가 쌓인 이후에 이상 징후를 감지하기 시작합니다.

많은 양의 데이터, 긴기간의 데이터로 이상징후 감지의 성능이 높아질 수 있습니다.

감지된 내용들을 확인 후 자동 감지되는 event들을 Alert으로 전파받고 싶은 경우,

New monitor를 클릭해 Monitor를 생성합니다.

Watchdog Monitor 설정방법은 [ Datadog ] Datadog를 활용한 AIOps #2 - Watchdog 알람 설정 에서 확인하세요.

Watchdog Impact Analysis

APM, RUM을 모두 사용 하는 경우, Watchdog 메뉴에서 APM 관련 event가 발생했을때 영향을 받는 Service, View , User 등을 표시해주는 Watchdog Impact Analysis (아래 참조이미지의 6번항목 부분) 기능을 활용할 수 있습니다.

Watchdog 경고 카드는 아래와 같은 정보를 확인할 수 있습니다.

Status : ongoing, resolved, expired. 로 표시됩니다. (expired는48시간 이상 지속되는 경우입니다.)
Timeline : 현상이 발생하는 기간을 설명합니다.
Message : 현상을 설명합니다.
Graph : 현상을 시각적으로 표현합니다.
Tags : 현상의 범위를 보여줍니다.
Impact : 현상이 미치는 영향에 대한 요약을 보여줍니다. ( Watchdog Impact Analysis )

Watchdog Insights

또한 Infra, APM, Log 등의 각 제품의 explorer 화면에서 Watchdog Insights를 확인할 수 있습니다.

Watchdog Insights 에 표시된 카드를 클릭하면 다음과 같은 내용들을 확인할 수 있습니다.

필드를 포함하는 오류 로그의 시계열
오류 로그와 자주 연관되는 태그
로그 패턴 의 포괄적인 목록

Watchdog RCA(Root Cause Analysis)

Watchdog 근본 원인 분석(RCA)은 인시던트 분류 중에 예비 조사를 자동화하여 평균 복구 시간(MTTR)을 줄이는 데 도움이 됩니다 . Watchdog AI 엔진은 애플리케이션 성능 이상과 관련 구성 요소 간의 상호 종속성을 식별하여 증상 간의 인과 관계를 도출합니다. Watchdog가 APM 이상을 발견할 때마다 이상 원인 및 결과에 대한 더 깊은 통찰력을 제공하기 위해 근본 원인 분석을 시작합니다.

APM을 사용해야 활용이 가능하며, env, service, version Tag(Unified service tagging)를 필수적으로 설정해야합니다.

Watchdog RCA는 분석 시 다음과 같은 데이터 소스를 고려합니다.

APM 오류율, 대기시간 및 적중률 측정 항목
APM 배포 추적
APM 추적
CPU 사용량, 메모리 사용량, 디스크 사용량을 포함한 에이전트 기반 인프라 메트릭
AWS 인스턴스 상태 확인 메트릭
로그 패턴 이상

Watchdog Automatic Faulty Deployment Detection

자동 오류 배포 감지는 몇 분 이내에 오류 코드 배포를 찾아내 평균 감지 시간(MTTD)을 줄입니다. 코드가 배포될 때마다 Watchdog는 새 코드 버전의 성능을 이전 버전과 비교하여 배포에 도입된 새로운 유형의 오류나 오류율 증가를 발견합니다. Watchdog가 새 배포에 오류가 있다고 판단하면 영향을 받는 서비스에 대한 세부 정보가 APM 서비스 페이지와 영향을 받는 엔드포인트의 리소스 페이지에 나타납니다.

Watchdog가 현재 활성화된 버전에 오류가 있음을 발견하면 아래 스크린샷과 같이 서비스 세부 정보 페이지 상단에 분홍색 배너로 표시됩니다. 화면 하단의 배포 표는 서비스에 대한 배포 내역을 표시하며, Watchdog가 과거에 오류가 있다고 발견한 버전도 표시합니다.

배너에서 세부 정보 보기를 클릭하여 잘못된 배포에 대한 추가 정보가 있는 슬라이드 아웃 패널을 엽니다. 이 보기는 다음을 포함할 수 있는 잘못된 배포에 대한 세부 정보를 제공합니다.

오류율 증가 그래프
새롭게 감지된 오류의 오류 유형
영향을 받는 엔드포인트
HTTP 상태 코드

Watchdog Automatic Faulty Cloud & SaaS API Detection

자동 오류 클라우드 및 SaaS API 감지는 몇 분 이내에 타사 공급업체(결제 게이트웨이, 클라우드 공급업체 등)가 문제를 겪고 있는 것을 감지하여 평균 감지 시간(MTTD)을 단축합니다. Watchdog는 APM 원격 측정을 사용하여 AWS, OpenAI, Slack, Stripe 등과 같은 외부 공급업체에 대한 요청에서 오류율이 증가하는지 지속적으로 모니터링하여 서비스 저하가 발생하는 즉시 감지합니다. 이러한 사전 감지를 통해 문제가 확대되기 전에 문제를 식별하고 완화하는 데 앞장서서 근본 원인 분석에 소요되는 시간을 크게 줄이고 대응 시간을 개선할 수 있습니다.

Watchdog가 사용 중인 외부 공급자가 결함이 있음을 식별하면 문제의 영향을 받는 서비스와 중단 범위를 표시합니다. 이를 통해 외부 및 내부 문제를 구별할 수 있습니다. Datadog는 또한 공급자의 상태 페이지와 지원 채널에 대한 직접 링크를 제공하므로 필요에 따라 연락할 수 있습니다.