-
SRE 컨택스트에서 Toil의 정의DevOps 2025. 5. 20. 12:20728x90
Toil은 반복적이고 수동적이며, 자동화되지 않았고, 사용자 가치에 직접적으로 기여하지 않으며, 시스템이 성장할수록 증가하는 작업입니다.
— Google SRE Book 정의Toil의 대표적인 예시
유형 예시 수동 운영 서버 재시작, 로그 수집, 알람 확인 후 수작업 대응 반복 작업 매일/매주 수동 배포, 모니터링 구성 갱신 기계적 대응 장애 대응 시 매번 문서 보며 동일한 조치 수행 티켓 처리 수동 계정 생성 요청, DNS 레코드 수정 요청 등 Toil의 조건 (Google SRE 기준)
Toil은 다음 조건 중 여러 개를 만족해야 합니다:
조건 설명 수동적 사람의 개입이 필요함 반복적 같은 작업을 자주 반복함 자동화 가능 기술적으로 자동화가 가능함 비가치 창출 고객에게 직접적인 가치를 주지 않음 확장성 없음 시스템 규모가 커질수록 업무량도 비례 증가 SRE에서 Toil을 관리하는 이유
- 운영의 지속 가능성 확보: SRE가 운영에만 매몰되지 않도록 함
- 엔지니어의 번아웃 방지
- 자동화를 통한 신뢰성 향상
- 기술부채 제거
Google SRE 팀의 목표 중 하나는 SRE 업무의 50% 이상이 개발/개선 중심의 가치 있는 작업이 되도록 하고, 나머지 50% 이상이 toil로 채워지지 않도록 관리하는 것입니다.
728x90'DevOps' 카테고리의 다른 글
Toil 줄이기 전략 (0) 2025.05.20 SLO (0) 2025.05.20 Platform Engineering 이란 (0) 2025.04.03 NLB의 Proxy Protocol (0) 2025.03.27 robots.txt 개념 (0) 2025.03.26