나의 잡다한 노트 및 메모

SLI와 SLO 본문

DevOps/SRE

SLI와 SLO

peanutwalnut 2025. 4. 24. 10:05

SLI (Service Level Indicators)

SLO (Service Level Objectives)

 

SLI의 정의 : 서비스에 대한 수준을 측정하여, 정량적으로 정의한 지표.

SLI의 예시

가용성/업타임

  • 총 요청 대비 성공한 요청의 비율
  • 전체 기간 중 시스템 업타임의 비율

레이턴시

  • API 요청이 응답을 반환하는 데 걸리는 시간
  • 최종 사용자에게 웹 페이지가 로드되는 데 걸리는 시간

처리량

  • 초당 처리되는 요청 수입니다.
  • 특정 기간 내에 처리되는 데이터의 양

오류율

  • 총 요청 대비 실패한 요청의 비율
  • 반환된 4xx 또는 5xx HTTP 상태 코드의 수

포화도

  • CPU나 RAM 같은 리소스 활용률
  • 사용 가능한 총 저장 공간 대비 사용된 저장 공간의 양

커버리지

  • 정해진 기간 내에 새로운 기능 업데이트를 받은 사용자의 비율
  • 총 전달된 응답 대비 캐시된 응답의 비율

선도(Freshness)

  • 데이터가 쓰여진 시점을 기준으로 읽기되는 데이터의 수명
  • 여러 데이터베이스나 시스템에 걸쳐 데이터를 복제하는 데 걸리는 시간

용량

  • 시스템이 동시에 처리할 수 있는 최대 사용자 또는 세션 수
  • 시스템이 성능 저하 없이 처리할 수 있는 최대 데이터 볼륨

평균값보다는 값의 분포를 퍼센타일에 따른 분포를 사용하는 것이 좋다.

문제가 되는 90% , 99% 구간에 속하는 걸 신경써야 한다.

SLI 지표의 표준화

지표의 측정 단위를 표준화해야한다.

수집 주기, 수집 범위, 지표화 주기 등등을 약속해야한다.

SLO

SLO = SLI + 목표값

사용자 관점에서 서비스에 얼마나 영향을 주는 가의 관점에서 결정해야 한다.

SLO의 예시

업타임/가용성 SLO

  • 30일 동안 99.9%의 업타임 제공
  • 일주일 동안 시스템 오류로 인해 요청이 실패하는 비율이 0.1% 미만

레이턴시 SLO

  • 웹 페이지 로드의 95%가 2초 이내에 완료
  • API 요청의 99%가 300밀리초 이내에 반환

오류율 SLO

  • 모든 트랜잭션의 0.05% 미만에서 오류 발생
  • 데이터베이스 쓰기 중 실패가 1% 미만

처리량 SLO

  • 시스템이 피크 타임 중 초당 10,000개의 요청 처리 가능
  • 속도 저하 없이 일일 5TB의 데이터 수집 가능

용량 및 사용량 SLO

  • 중요 시스템의 디스크 사용률이 상시 80% 미만으로 유지됨
  • 모든 서비스 인스턴스에서 총 RAM 사용량은 70%를 넘지 않음

데이터 무결성 및 일관성 SLO

  • 5분 안에 클러스터 간 데이터 복제 완료
  • 1차 및 2차 스토리지 시스템 간의 데이터 불일치가 0.01% 미만

내구성 SLO

  • 1년 간 99.9999999%의 데이터 내구성 제공
  • 백업 복원 성공률은 99.5%

변경 관리 및 배포 SLO

  • 배포의 98%가 롤백 없이 수행
  • 99%의 변경 사항은 계획되지 않은 중단으로 이어지지 않음

Toil

쓸모없는 반복적이지만 자동화가 가능한 작업

'DevOps > SRE' 카테고리의 다른 글

SRE ( Site Reliability Engineering )  (0) 2025.04.24
모니터링을 위해 수집되야 할 DB 주요 지표와 의미  (0) 2025.03.26
모니터링 방법론  (1) 2024.09.08