나의 잡다한 노트 및 메모

데이터 웨어하우스 본문

데이터엔지니어

데이터 웨어하우스

peanutwalnut 2024. 12. 9. 19:59

**데이터 웨어하우스(Data Warehouse)**는 다양한 출처의 데이터를 통합, 저장, 분석하기 위해 설계된 대규모 데이터 저장소를 의미합니다. 이는 비즈니스 의사결정을 지원하기 위해 분석 및 보고에 최적화된 구조로 설계된 데이터베이스 시스템입니다.


데이터 웨어하우스의 특징

  1. 주제 중심적 (Subject-Oriented):
    • 특정 비즈니스 주제(예: 판매, 고객, 재무 등)에 따라 데이터를 구성합니다.
    • 운영 데이터베이스(OLTP)는 트랜잭션 처리가 목적이지만, 데이터 웨어하우스는 분석 목적에 맞게 설계됩니다.
  2. 통합적 (Integrated):
    • 서로 다른 시스템에서 수집된 데이터를 일관된 형식으로 변환하여 통합.
    • 예: 여러 지역에서 수집된 데이터의 통화 단위를 일관되게 변환.
  3. 시간 변화(Time-Variant):
    • 데이터를 시간에 따라 저장하여 과거 데이터를 포함한 역사적 분석이 가능.
    • 예: 과거 3년간의 매출 데이터를 분석하여 성장 추세 파악.
  4. 비휘발성 (Non-Volatile):
    • 한 번 저장된 데이터는 삭제하거나 업데이트되지 않으며, 오직 조회 및 분석 목적으로 사용.

데이터 웨어하우스와 기존 데이터베이스의 차이

특징데이터 웨어하우스운영 데이터베이스(OLTP)

목적 데이터 분석 및 의사결정 지원 트랜잭션 처리 및 데이터 관리
데이터 구조 분석에 최적화된 구조 (Star, Snowflake Schema) 정규화된 구조
데이터 주기 주기적으로 배치 작업으로 데이터 적재 실시간 데이터 입력
쿼리 유형 복잡한 분석 쿼리 단순한 읽기/쓰기 쿼리
성능 최적화 읽기 및 분석 속도 최적화 쓰기 작업 속도 최적화

데이터 웨어하우스의 구성 요소

  1. ETL (Extract, Transform, Load)
    • 데이터를 웨어하우스로 적재하기 전에 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 프로세스.
    • 다양한 원본(데이터베이스, 파일, API 등)에서 데이터를 가져와 일관되게 변환.
  2. 데이터 저장소
    • 데이터 웨어하우스의 핵심 구성 요소로, 통합된 데이터가 저장되는 장소.
    • 주로 Star SchemaSnowflake Schema와 같은 다차원 모델로 설계.
  3. OLAP (Online Analytical Processing)
    • 사용자가 데이터를 다차원적으로 분석할 수 있도록 지원하는 기술.
    • 예: 매출 데이터를 지역, 기간, 상품별로 분석.
  4. BI 도구 (Business Intelligence Tools)
    • 데이터 시각화 및 보고서를 생성하는 도구.
    • 예: Tableau, Power BI, Looker.

'데이터엔지니어' 카테고리의 다른 글

Apache Iceberg란?  (0) 2025.02.09
대규모 데이터를 다루기 위한 기초지식  (0) 2025.02.08
Ingestion  (0) 2025.02.04
Pandas 란?  (1) 2024.12.27
데이터 웨어하우스와 데이터 레이크 등의 용어들  (0) 2024.12.24