개요
- 사전에 설정한 조건에 맞는 알림(장애) 발생 시, 담당자에게 전화, SMS, E-mail 등을 통하여 알려주는 장애 전파 서비스입니다.
목적
- 장애 발생 시, 담당자가 장애를 확실히 인지할 수 있도록 하며, 상황 파악 및 후속 조치가 용이하도록 합니다.
특징
- 팀 중심의 운영
- 시스템별 팀을 구성하여, 팀의 Admin이 팀 내에서의 라우팅 규칙(알림의 종류와 시기별 트리거 설정), Escalation, On-call 스케줄을 적용할 수 있습니다.
- 자신의 팀에 해당하는 Alert만 표시되어 처리할 수 있습니다.
- 팀별 설정 외에 사용자별 알림 규칙은 개인별 설정 가능합니다.
- On-call 스케줄에 따른 운영
- 장애의 특성에 따라 담당자에게 알림
- 200개가 넘는 Integration 지원 - Slack, Grafana, Webhook, API 등
- Opsgenie에 등록된 사용자만 알림을 받을 수 있습니다.(User를 지정하여 알림 설정)
- 시스템 단위의 Owner 계정이 Admin 또는 User 역할의 사용자를 추가하여 사용합니다.(https://docs.opsgenie.com/docs/user-roles)
동작 방식
- 서비스 장애 발생
- 모니터링 툴에서 감지하여 Opsgenie에 Alert 생성
- 각 시스템별 On-call 담당자(시스템 Owner 등)에게 알림 - 전화, SMS, 이메일 등
- 국제 전화로 알림이 오며, 전화의 경우 영어 ARS입니다.(Description read 시에 내용에 한글이 포함될 경우, 해당 부분을 Skip합니다.)
- 각 시스템(팀)별 알림을 받을 담당자가 지정되어 있어야 합니다.(On-call 담당자 또는 Admin)
- Escalation rule도 설정되어 있어야 합니다.
- 심각도에 따라 사업팀 담당자, 고객 담당자에게 알림도 가능합니다.
- Slack의 시스템별 Alert 채널에 알림 메시지가 표시됩니다.
- 담당자가 장애를 인지하면(Acknowledge 버튼 클릭, Alert view, 담당자 Assign 등) 알림은 종료되며, Escalation은 더 이상 동작하지 않습니다.
- 인지하지 못하면 Escalation rule에 따라 다음 수신자에게 알림이 가게 됩니다.