Fully Managed 기반의 Data, ML, BI Solution Service
- Native Service 리소스 내에서 개발 및 운영
- Native Service 의 운영에 영향을 주는 요소는 Service 내에서 개발자/운영자가 개발한 Code/Query/Model
- 개발자/분석가 등 서비스를 이용하는 사람의 Skill 및 비즈니스 요건에 따라 성능 요건이 모두 다름
- 서비스 생성 및 변경 시 설정값은 비즈니스 분석 요건에 따라 모두 다르며 Default value의 설정이 의미가 없는 특징이 있음
- Native Service 리소스 외부에서 개발 및 운영되는 AP 또는 3rd Party Instance에서 연동을 통해 사용
- Native Service 의 운영에 영향을 주는 요소는 Service 외부에 존재
- 고객사별 비즈니스 요건, AP의 용도에 따라 성능 요건이 모두 다름
- 서비스 생성 및 변경 시 설정값은 비즈니스 분석 요건에 따라 모두 다르며 Default value의 설정이 의미가 없는 특징이 있음
- Native Service 운영 요소
- 사용자 요청에 따른 리소스 생성/변경
- CSP에서 리소스 PM(Prevention Maintenance 기간 중 모니터링(시작/종료/활성화 확인 등)
- 모니터링을 통한 이상에 대하여 개발 및 운영조직에 상황 전파
- 모니터링을 통한 사전 운영조직과 합의된 리소스 Scaling 및 향후 증설에 대한 Advice
Management-Metric 선정
- 메트릭은 공통지료포서 필수 모니터링 Metric과, Site/Service 특화 된 협의 모니터링 Metric 으로 분리하여 정의
- 필수 모니터링 Metric
- 서비스 자원의 IaaS 성 지표로서 (예 : CPU 사용율. Mem 사용율, Storage 사용율)
- Provisioning Service 로서 Auto Scaling을 위한 지표
- Native Service 별 공통 지표
- 특화 모니터링 Metric
- Native Service 의 특성상 상당 수가 Serverless/Managed Service
- IssS 성 지표이기는 하지만 서비스의 운영에 지장을 주지 않는 지표(예 : Training 시 GPU 사용율)
- 특정 주기/시기(분기/반기/연간 Batch, Marketing) 에 비즈니스 요건에 의해 한시적으로 확인 할 지표(예 : Service Query Queue)
- Native Service/Site/운영 환경에 따라 별도 모니터링
Management-모니터링
- MSP(Cloud Mgmt)
- Native Service 모니터링의 주체로서 Metric/서비스별 임계치 도달 시 관련 이해 조직간의 Coordinator 역할 수행
- 임계치 도달 시 Native Service 리소스의 문제인지 서비스의 문제인지를 파악 하고 관련 조직과 Comm.
- 필요시 리소스 증설에 대한 Advice(Provisioning Service 限)
- 서비스 조직(운영/개발)
- 서비스 운영 프로세스 개선 활동, 자원 증설에 대한 의사결정
- 개발조직의 서비스 AP 코드 튜닝을 통한 서비스 개선 활동
- CSP(AWS/Azure)
- CSP별 Native Service의 근본적인 문제일 경우 이에 대한 개선 활동
- Trouble shooting 사례 제공을 통해 원인 해결 방안 제시
Management-장애
- 장애인지
- Cloud 운영조직은 Native Service 장애에 대한 컨트롤타워의 역할을 수행
- 장애의 인지는 Metric 모니터링, 서비스 개발/운영 조직, CSP로부터 확인
- 장애조치
- Cloud 운영조직은 장애의 원인을 서비스 운영, 서비스 AP, Native Service 연동 IaaS, CSP 장애 인지를 분석하고, 판단하여 해당 담당 조직과 Comm 수행
- Cloud 운영조직은 장애가 Close 될때까지 L/H/C 수행
- Cloud 운영조직은 Native Service와 연계된 서비스로 인한 장애일 경우 해당 Service Owner 조직에 통보 및 개선 요청
- Service Owner 조직은 서비스 운영/개발에 기인한 장애일 경우 복구방안 및 재발 방지 방안 수립 및 시행 하고 결과를 Cloud 운영조직에 f/b
- 동일장애가 지속 발생시 Root Cause Analysis를 수행하여 근본적인 문제해결을 위해 후속조치를 Root Cause에서 수행