나의 잡다한 노트 및 메모
SLI와 SLO 본문
SLI (Service Level Indicators)
SLO (Service Level Objectives)
SLI의 정의 : 서비스에 대한 수준을 측정하여, 정량적으로 정의한 지표.
SLI의 예시
가용성/업타임
- 총 요청 대비 성공한 요청의 비율
- 전체 기간 중 시스템 업타임의 비율
레이턴시
- API 요청이 응답을 반환하는 데 걸리는 시간
- 최종 사용자에게 웹 페이지가 로드되는 데 걸리는 시간
처리량
- 초당 처리되는 요청 수입니다.
- 특정 기간 내에 처리되는 데이터의 양
오류율
- 총 요청 대비 실패한 요청의 비율
- 반환된 4xx 또는 5xx HTTP 상태 코드의 수
포화도
- CPU나 RAM 같은 리소스 활용률
- 사용 가능한 총 저장 공간 대비 사용된 저장 공간의 양
커버리지
- 정해진 기간 내에 새로운 기능 업데이트를 받은 사용자의 비율
- 총 전달된 응답 대비 캐시된 응답의 비율
선도(Freshness)
- 데이터가 쓰여진 시점을 기준으로 읽기되는 데이터의 수명
- 여러 데이터베이스나 시스템에 걸쳐 데이터를 복제하는 데 걸리는 시간
용량
- 시스템이 동시에 처리할 수 있는 최대 사용자 또는 세션 수
- 시스템이 성능 저하 없이 처리할 수 있는 최대 데이터 볼륨
평균값보다는 값의 분포를 퍼센타일에 따른 분포를 사용하는 것이 좋다.
문제가 되는 90% , 99% 구간에 속하는 걸 신경써야 한다.
SLI 지표의 표준화
지표의 측정 단위를 표준화해야한다.
수집 주기, 수집 범위, 지표화 주기 등등을 약속해야한다.
SLO
SLO = SLI + 목표값
사용자 관점에서 서비스에 얼마나 영향을 주는 가의 관점에서 결정해야 한다.
SLO의 예시
업타임/가용성 SLO
- 30일 동안 99.9%의 업타임 제공
- 일주일 동안 시스템 오류로 인해 요청이 실패하는 비율이 0.1% 미만
레이턴시 SLO
- 웹 페이지 로드의 95%가 2초 이내에 완료
- API 요청의 99%가 300밀리초 이내에 반환
오류율 SLO
- 모든 트랜잭션의 0.05% 미만에서 오류 발생
- 데이터베이스 쓰기 중 실패가 1% 미만
처리량 SLO
- 시스템이 피크 타임 중 초당 10,000개의 요청 처리 가능
- 속도 저하 없이 일일 5TB의 데이터 수집 가능
용량 및 사용량 SLO
- 중요 시스템의 디스크 사용률이 상시 80% 미만으로 유지됨
- 모든 서비스 인스턴스에서 총 RAM 사용량은 70%를 넘지 않음
데이터 무결성 및 일관성 SLO
- 5분 안에 클러스터 간 데이터 복제 완료
- 1차 및 2차 스토리지 시스템 간의 데이터 불일치가 0.01% 미만
내구성 SLO
- 1년 간 99.9999999%의 데이터 내구성 제공
- 백업 복원 성공률은 99.5%
변경 관리 및 배포 SLO
- 배포의 98%가 롤백 없이 수행
- 99%의 변경 사항은 계획되지 않은 중단으로 이어지지 않음
Toil
쓸모없는 반복적이지만 자동화가 가능한 작업
'DevOps > SRE' 카테고리의 다른 글
SRE ( Site Reliability Engineering ) (0) | 2025.04.24 |
---|---|
모니터링을 위해 수집되야 할 DB 주요 지표와 의미 (0) | 2025.03.26 |
모니터링 방법론 (1) | 2024.09.08 |