error budget
-
SLODevOps 2025. 5. 20. 10:31
SLO란 무엇인가?SLO(Service Level Objective)는 서비스의 신뢰성에 대한 구체적이고 측정 가능한 목표치를 의미합니다. 이는 서비스 수준 지표(SLI)를 기반으로 하며, 사용자 경험을 중심으로 설정됩니다. 예를 들어, "HTTP 요청의 97%는 성공적으로 처리되어야 한다"와 같은 목표가 SLO에 해당합니다.SLO의 필요성엔지니어링 자원은 한정되어 있으므로, 어떤 작업에 우선순위를 둘지 결정하는 것이 중요합니다. SLO는 이러한 결정을 데이터 기반으로 지원하며, 기능 개발과 신뢰성 확보 간의 균형을 유지하는 데 도움을 줍니다. 또한, SLO를 통해 오류 예산(Error Budget)을 정의하고, 이를 기반으로 릴리스 속도 조절이나 안정성 향상 작업의 필요성을 판단할 수 있습니다.SLO ..
-
Error Budget의 개념과 소진 시 대응 방안Interview 2025. 3. 18. 14:18
Error Budget은 허용 가능한 장애 시간을 나타내며, SLO를 기준으로 계산됩니다. Error Budget이 소진되면 신규 기능 배포를 중단하고, Root Cause Analysis, Auto Healing 개선, 모니터링 강화 등의 조치를 통해 안정성을 우선적으로 확보해야 합니다. 📌 1️⃣ Error Budget이란?**Error Budget(에러 예산)**은 SLO(Service Level Objective)에서 허용 가능한 실패율을 수치화한 개념입니다.즉, 완벽한 100% 가용성을 목표로 하지 않고, 일정 수준의 장애를 허용하여 새로운 기능 배포와 시스템 안정성 간 균형을 유지하는 것입니다.✅ Error Budget 공식:Error Budget=1−SLOError\ Budget = 1 -..