ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • RTO, RPO와 TTD, TTE, TTF의 관계
    DevOps 2025. 3. 15. 11:43
    728x90

    RTO (Recovery Time Objective)와 RPO (Recovery Point Objective)는 TTD (Time to Detect), TTE (Time to Engage), TTF (Time to Fix)와 밀접한 관련이 있어. 이 개념들은 모두 시스템 장애 발생 시 복구 속도와 데이터 손실을 최소화하는 목표와 연결되어 있어.

     

    1️⃣ 용어 정의

    용어의미질문
    RTO (복구 시간 목표) 장애 발생 후 서비스가 복구되는 최대 허용 시간 "시스템을 얼마나 빨리 복구해야 할까?"
    RPO (복구 지점 목표) 장애 발생 시 허용 가능한 최대 데이터 손실 시간 "얼마나 최근의 데이터를 복구할 수 있어야 할까?"
    TTD (탐지 시간) 장애를 감지하는 데 걸리는 시간 "장애를 얼마나 빨리 발견할 수 있을까?"
    TTE (대응 시작 시간) 장애를 감지한 후 대응을 시작하는 데 걸리는 시간 "장애를 감지하고 나서 얼마나 빨리 대응을 시작할 수 있을까?"
    TTF (복구 시간) 실제로 장애를 해결하는 데 걸리는 시간 "문제를 해결하는 데 얼마나 걸릴까?"

     

     

    2️⃣ 장애 복구 과정에서의 관계

    장애가 발생하면, 시스템의 실제 복구 시간 (Actual RTO)탐지, 대응, 복구 속도에 의해 결정돼.

    🔹 공식

    📌 실제 RTO (Actual RTO) = TTD + TTE + TTF
    📌 장애 확산 범위 (Blast Radius) = TTD가 길수록 RPO 증가

     

     

    3️⃣ 예제: 결제 시스템 장애 발생 시

    단계지표설명
    🔍 탐지 TTD (탐지 시간) = 10분 모니터링 시스템이 장애를 감지하는 데 10분 소요
    대응 개시 TTE (대응 시작 시간) = 5분 장애 감지 후 엔지니어가 문제 해결을 시작하는 데 5분 걸림
    🛠 문제 해결 TTF (복구 시간) = 15분 엔지니어가 장애 원인을 찾아 해결하는 데 15분 걸림
    🔄 총 복구 시간 실제 RTO = 10 + 5 + 15 = 30분 장애 발생 후 30분 만에 서비스 정상화
    데이터 손실 RPO = 5분 5분치 거래 데이터 손실 발생

     

    4️⃣ RTO & RPO를 줄이는 방법

    1️⃣ TTD 단축 (빠른 탐지)

    • AI 기반 모니터링 (Prometheus, Datadog, Splunk) 도입
    • 이상 감지 시스템 활용 (Anomaly Detection)
    • Synthetic Transactions (모의 트랜잭션) 실행으로 사전 감지

    2️⃣ TTE 단축 (빠른 대응 시작)

    • 자동 알림 시스템 (PagerDuty, OpsGenie) 활용
    • 긴급 대응 프로세스 최적화 (On-Call Escalation)
    • 불필요한 알람 필터링으로 알람 피로도 줄이기

    3️⃣ TTF 단축 (빠른 장애 해결)

    • 자동 롤백 시스템 (Spinnaker, ArgoCD) 적용
    • Kubernetes 및 Service Mesh 기반 자동 복구
    • 장애 대응 플레이북 (Incident Playbook) 작성 및 연습

    4️⃣ RPO 단축 (데이터 손실 최소화)

    • 데이터 실시간 복제 (Real-time Replication)
    • 지속적 백업 및 복구 솔루션 적용 (Point-in-Time Recovery)
    • 무상태 아키텍처 (Stateless Architecture) 도입으로 데이터 손실 방지

     

    5️⃣ 요약

    지표최적화 방법
    RTO (복구 시간 목표) TTD, TTE, TTF를 줄이면 RTO도 감소
    RPO (복구 지점 목표) 데이터 복제 및 백업 전략 최적화
    TTD (탐지 시간 단축) AI 기반 모니터링, 이상 탐지
    TTE (대응 시작 시간 단축) 자동 알림, 온콜 프로세스 최적화
    TTF (복구 시간 단축) 자동 롤백, 자동 복구 시스템

    🚀 즉, TTD, TTE, TTF를 줄이면 RTO가 감소하고, 백업 및 데이터 복제 전략을 개선하면 RPO가 최적화되어, 장애가 발생해도 비즈니스 연속성을 보장할 수 있어!

    728x90
Designed by Tistory.