목록DevOps/SRE (3)
나의 잡다한 노트 및 메모
SRE(Site Reliability Engineering, 사이트 신뢰성 엔지니어링)은 소프트웨어 엔지니어링 기법을 인프라 운영에 적용하여, 시스템의 안정성과 확장성을 높이고 운영상의 문제를 자동화 및 예방하는 접근 방식입니다. 아래는 SRE에 대한 자세한 설명입니다.1. SRE의 개념 및 기원정의:SRE는 소프트웨어 엔지니어링 기술을 활용해 시스템의 가용성, 성능, 확장성 등을 보장하고, 운영 업무(운영, 모니터링, 장애 대응 등)를 자동화하여 효율적으로 관리하는 방법론입니다.기원:구글에서 2003년 경에 처음 도입된 개념으로, 당시 대규모 서비스 운영의 복잡성을 해결하기 위해 탄생했습니다. 이후 많은 기업들이 이 모델을 도입해 운영의 효율성과 안정성을 크게 향상시켰습니다.2. 주요 원칙 및 개념신뢰..
PostgreSQL를 모니터링하여 Grafana 대시보드에서 “이 DB가 정상적으로 잘 동작하고 있는가?”를 유의미하게 판단하려면, 리소스 사용 현황과 DB 내부 지표를 균형 있게 모니터링하는 것이 핵심입니다. 아래는 실무에서 많이 활용하는 주요 지표와 각 지표가 의미하는 바를 간략히 정리한 것입니다.1. Connection & SessionActive/Idle Connections (현재 연결 수, 상태별)# of active connections, # of idle connections, # of idle in transaction 등PostgreSQL에서 max_connections에 가깝게 올라가면 신규 연결이 거부될 수 있으므로 주의연결 상태가 “idle in transaction” 상태로 오래..
모니터링 방법론USE methodhttps://www.brendangregg.com/usemethod.htmlFor every resource, check utilization, saturation, and erros.resourceCPU : sockets, cores, hardware threads ( virtual CPUs )memory : capacitynetwork interfacestorage devices : I/O, capacityControllers: storage, network cardsInterconnects: CPU, memory, I/OUtilization (이용률): the average time that the resource was busy servicing workSatur..