DevOps

SRE 컨택스트에서 Toil의 정의

DevOps Engineer 2025. 5. 20. 12:20
728x90

Toil반복적이고 수동적이며, 자동화되지 않았고, 사용자 가치에 직접적으로 기여하지 않으며, 시스템이 성장할수록 증가하는 작업입니다.
Google SRE Book 정의

 

 

Toil대표적인 예시

유형 예시
수동 운영 서버 재시작, 로그 수집, 알람 확인 수작업 대응
반복 작업 매일/매주 수동 배포, 모니터링 구성 갱신
기계적 대응 장애 대응 매번 문서 보며 동일한 조치 수행
티켓 처리 수동 계정 생성 요청, DNS 레코드 수정 요청

 

 

Toil조건 (Google SRE 기준)

Toil다음 조건 여러 개를 만족해야 합니다:

조건
설명
수동적 사람의 개입이 필요함
반복적 같은 작업을 자주 반복함
자동화 가능 기술적으로 자동화가 가능함
비가치 창출 고객에게 직접적인 가치를 주지 않음
확장성 없음 시스템 규모가 커질수록 업무량도 비례 증가
 

SRE에서 Toil관리하는 이유

  • 운영의 지속 가능성 확보: SRE운영에만 매몰되지 않도록
  • 엔지니어의 번아웃 방지
  • 자동화를 통한 신뢰성 향상
  • 기술부채 제거

Google SRE 팀의 목표 하나는 SRE 업무의 50% 이상이 개발/개선 중심의 가치 있는 작업되도록 하고, 나머지 50% 이상이 toil채워지지 않도록 관리하는 것입니다.

728x90