728x90
Outage
-
프로덕션에서 장애가 발생했다면, 어떤 단계로 접근할 것인가요?Interview 2025. 3. 16. 22:37
장애 발생 시, 먼저 모니터링 시스템을 활용해 문제를 감지하고, 영향을 분석하여 빠르게 복구 가능한 조치를 실행합니다. 이후, 근본 원인을 분석하여 재발 방지 대책을 마련하고, 포스트모템을 통해 대응 프로세스를 지속적으로 개선합니다.모범 답변: 프로덕션 장애 발생 시 대응 방법장애 발생 시 신속한 대응과 체계적인 접근이 중요합니다. 저는 장애 대응을 5단계 프로세스로 접근합니다:1️⃣ 장애 감지 및 초기 대응 (Detection & Triage)모니터링 시스템(Alerting & Logging):프로덕션 환경에서는 Prometheus, Grafana, Datadog, CloudWatch 등을 활용하여 실시간 장애 감지중요한 지표(예: API 응답 속도, 에러율, CPU/메모리 사용량)에서 비정상적인 패턴..