나의 잡다한 노트 및 메모
데이터 웨어하우스 본문
**데이터 웨어하우스(Data Warehouse)**는 다양한 출처의 데이터를 통합, 저장, 분석하기 위해 설계된 대규모 데이터 저장소를 의미합니다. 이는 비즈니스 의사결정을 지원하기 위해 분석 및 보고에 최적화된 구조로 설계된 데이터베이스 시스템입니다.
데이터 웨어하우스의 특징
- 주제 중심적 (Subject-Oriented):
- 특정 비즈니스 주제(예: 판매, 고객, 재무 등)에 따라 데이터를 구성합니다.
- 운영 데이터베이스(OLTP)는 트랜잭션 처리가 목적이지만, 데이터 웨어하우스는 분석 목적에 맞게 설계됩니다.
- 통합적 (Integrated):
- 서로 다른 시스템에서 수집된 데이터를 일관된 형식으로 변환하여 통합.
- 예: 여러 지역에서 수집된 데이터의 통화 단위를 일관되게 변환.
- 시간 변화(Time-Variant):
- 데이터를 시간에 따라 저장하여 과거 데이터를 포함한 역사적 분석이 가능.
- 예: 과거 3년간의 매출 데이터를 분석하여 성장 추세 파악.
- 비휘발성 (Non-Volatile):
- 한 번 저장된 데이터는 삭제하거나 업데이트되지 않으며, 오직 조회 및 분석 목적으로 사용.
데이터 웨어하우스와 기존 데이터베이스의 차이
특징데이터 웨어하우스운영 데이터베이스(OLTP)
목적 | 데이터 분석 및 의사결정 지원 | 트랜잭션 처리 및 데이터 관리 |
데이터 구조 | 분석에 최적화된 구조 (Star, Snowflake Schema) | 정규화된 구조 |
데이터 주기 | 주기적으로 배치 작업으로 데이터 적재 | 실시간 데이터 입력 |
쿼리 유형 | 복잡한 분석 쿼리 | 단순한 읽기/쓰기 쿼리 |
성능 최적화 | 읽기 및 분석 속도 최적화 | 쓰기 작업 속도 최적화 |
데이터 웨어하우스의 구성 요소
- ETL (Extract, Transform, Load)
- 데이터를 웨어하우스로 적재하기 전에 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 프로세스.
- 다양한 원본(데이터베이스, 파일, API 등)에서 데이터를 가져와 일관되게 변환.
- 데이터 저장소
- 데이터 웨어하우스의 핵심 구성 요소로, 통합된 데이터가 저장되는 장소.
- 주로 Star Schema나 Snowflake Schema와 같은 다차원 모델로 설계.
- OLAP (Online Analytical Processing)
- 사용자가 데이터를 다차원적으로 분석할 수 있도록 지원하는 기술.
- 예: 매출 데이터를 지역, 기간, 상품별로 분석.
- BI 도구 (Business Intelligence Tools)
- 데이터 시각화 및 보고서를 생성하는 도구.
- 예: Tableau, Power BI, Looker.
'데이터엔지니어' 카테고리의 다른 글
Apache Iceberg란? (0) | 2025.02.09 |
---|---|
대규모 데이터를 다루기 위한 기초지식 (0) | 2025.02.08 |
Ingestion (0) | 2025.02.04 |
Pandas 란? (1) | 2024.12.27 |
데이터 웨어하우스와 데이터 레이크 등의 용어들 (0) | 2024.12.24 |