내 잡다한 노트

데이터 웨어하우스와 데이터 레이크 등의 용어들 본문

데이터엔지니어

데이터 웨어하우스와 데이터 레이크 등의 용어들

peanutwalnut 2024. 12. 24. 17:02

1. 데이터 웨어하우스 (Data Warehouse)

정의

데이터 웨어하우스는 **구조화된 데이터(Structured Data)**를 저장하고 분석하기 위해 설계된 중앙화된 데이터 저장소입니다. 조직 내 다양한 데이터 소스에서 데이터를 가져와 통합하고, 의사결정과 비즈니스 인텔리전스(BI) 작업을 지원합니다.

특징

  • 정제된 데이터: 데이터를 저장하기 전에 전처리(ETL)를 수행하여 데이터의 품질과 구조를 통일.
  • 스키마 온 라이트(Schema-on-Write): 데이터를 저장하기 전에 스키마를 정의해야 함.
  • 구조화된 데이터: 데이터베이스, ERP, CRM 등에서 가져온 정형 데이터를 처리.
  • 빠른 쿼리 성능: SQL과 BI 도구를 활용한 빠르고 효율적인 쿼리 수행.
  • 목적: 데이터 분석, 보고서 작성, 대시보드 생성.

사용 사례

  • 판매 데이터 분석.
  • 금융 트랜잭션 기록 및 분석.
  • 마케팅 성과 추적.

주요 도구

  • Amazon Redshift
  • Google BigQuery
  • Snowflake
  • Microsoft Azure Synapse Analytics

2. 데이터 레이크 (Data Lake)

정의

데이터 레이크는 구조화, 반구조화, 비구조화 데이터를 원시 상태(Raw Format)로 저장하는 중앙화된 저장소입니다. 데이터를 처리하거나 분석하기 전에 그대로 보관하며, 다양한 분석 작업을 지원합니다.

특징

  • 원시 데이터 저장: 데이터가 처리되기 전에 원본 그대로 저장.
  • 스키마 온 리드(Schema-on-Read): 데이터를 읽을 때 스키마를 정의하여 유연성 제공.
  • 다양한 데이터 형식: 로그 파일, 센서 데이터, 이미지, 비디오 등 비정형 데이터를 포함.
  • 확장성: 대규모 데이터를 저장하고, 클라우드 기반으로 쉽게 확장 가능.
  • 목적: 머신러닝, 고급 분석, 데이터 탐색.

사용 사례

  • IoT 센서 데이터 저장 및 분석.
  • 클릭스트림 데이터 분석.
  • 머신러닝 모델 학습 데이터 저장.

주요 도구

  • Amazon S3
  • Azure Data Lake Storage
  • Google Cloud Storage
  • Hadoop HDFS

3. 데이터 레이크하우스 (Data Lakehouse)

정의

데이터 레이크와 데이터 웨어하우스의 장점을 결합한 하이브리드 데이터 아키텍처입니다. 데이터 레이크의 유연성과 데이터 웨어하우스의 성능 및 관리 기능을 동시에 제공합니다.

특징

  • ACID 트랜잭션 지원: 데이터 무결성을 보장.
  • 통합 저장소: 구조화된 데이터와 비구조화된 데이터를 함께 저장.
  • 고성능 쿼리: 데이터 레이크처럼 저장하고, 데이터 웨어하우스처럼 빠르게 분석.
  • 비용 효율성: 하나의 저장소로 다양한 데이터 활용.

사용 사례

  • 실시간 데이터 분석 및 머신러닝 통합.
  • 단일 저장소에서 BI와 고급 분석 통합.

주요 도구

  • Delta Lake
  • Apache Iceberg
  • Databricks Lakehouse

4. 데이터 마트 (Data Mart)

정의

데이터 웨어하우스의 하위 집합으로, 특정 부서 또는 팀의 요구를 충족하기 위해 설계된 데이터 저장소입니다. 특정 도메인이나 주제(예: 판매, 마케팅, 금융) 데이터를 저장합니다.

특징

  • 좁은 범위: 특정 부서나 프로젝트에 필요한 데이터만 포함.
  • 데이터 웨어하우스에서 가져온 데이터: 분석 목적에 맞게 데이터를 추출 및 변환.
  • 빠른 접근성: 특정 요구를 충족하기 위해 최적화된 데이터 제공.

5. 데이터 메쉬 (Data Mesh)

정의

데이터 메쉬는 중앙 집중형 데이터 아키텍처에서 벗어나, 분산된 데이터 소유권과 관리 방식을 제공하는 데이터 관리 패러다임입니다. 데이터 도메인별로 독립적인 팀이 데이터를 관리하고 책임지는 방식입니다.

특징

  • 분산 데이터 관리: 각 도메인이 데이터 소유 및 관리.
  • 데이터 제품(Data Product): 도메인에서 제공하는 데이터는 독립적인 제품처럼 작동.
  • 셀프 서비스 플랫폼: 데이터를 쉽게 사용할 수 있도록 설계된 플랫폼 제공.

사용 사례

  • 대규모 조직에서 데이터 팀이 분산된 경우.
  • 다양한 데이터 소스와 도메인이 존재하는 복잡한 환경.

'데이터엔지니어' 카테고리의 다른 글

Pandas 란?  (1) 2024.12.27