DevOps
SRE 컨택스트에서 Toil의 정의
DevOps Engineer
2025. 5. 20. 12:20
728x90
Toil은 반복적이고 수동적이며, 자동화되지 않았고, 사용자 가치에 직접적으로 기여하지 않으며, 시스템이 성장할수록 증가하는 작업입니다.
— Google SRE Book 정의
Toil의 대표적인 예시
유형 | 예시 |
수동 운영 | 서버 재시작, 로그 수집, 알람 확인 후 수작업 대응 |
반복 작업 | 매일/매주 수동 배포, 모니터링 구성 갱신 |
기계적 대응 | 장애 대응 시 매번 문서 보며 동일한 조치 수행 |
티켓 처리 | 수동 계정 생성 요청, DNS 레코드 수정 요청 등 |
Toil의 조건 (Google SRE 기준)
Toil은 다음 조건 중 여러 개를 만족해야 합니다:
조건 |
설명 |
수동적 | 사람의 개입이 필요함 |
반복적 | 같은 작업을 자주 반복함 |
자동화 가능 | 기술적으로 자동화가 가능함 |
비가치 창출 | 고객에게 직접적인 가치를 주지 않음 |
확장성 없음 | 시스템 규모가 커질수록 업무량도 비례 증가 |
SRE에서 Toil을 관리하는 이유
- 운영의 지속 가능성 확보: SRE가 운영에만 매몰되지 않도록 함
- 엔지니어의 번아웃 방지
- 자동화를 통한 신뢰성 향상
- 기술부채 제거
Google SRE 팀의 목표 중 하나는 SRE 업무의 50% 이상이 개발/개선 중심의 가치 있는 작업이 되도록 하고, 나머지 50% 이상이 toil로 채워지지 않도록 관리하는 것입니다.
728x90