목록데이터엔지니어 (2)
내 잡다한 노트
Pandas는 Python에서 사용되는 데이터 분석 및 조작을 위한 강력한 라이브러리입니다. Pandas는 데이터를 효율적으로 다룰 수 있는 DataFrame과 Series라는 자료구조를 제공하며, 데이터를 정리, 조작, 분석하는 작업을 직관적이고 간단하게 수행할 수 있게 합니다. 1. Pandas의 주요 특징빠르고 효율적인 데이터 구조:Series: 1차원 배열 형태의 데이터 구조(예: 열 데이터).DataFrame: 2차원 표 형태의 데이터 구조(예: 행과 열로 구성된 데이터).다양한 데이터 처리 기능:결측치 처리 (NaN 값 다루기)데이터 필터링 및 선택데이터 정렬 및 그룹화데이터 병합 및 결합다양한 데이터 소스 지원:CSV, Excel, SQL, JSON 등 다양한 파일 형식에서 데이터를 읽고 ..
1. 데이터 웨어하우스 (Data Warehouse)정의데이터 웨어하우스는 **구조화된 데이터(Structured Data)**를 저장하고 분석하기 위해 설계된 중앙화된 데이터 저장소입니다. 조직 내 다양한 데이터 소스에서 데이터를 가져와 통합하고, 의사결정과 비즈니스 인텔리전스(BI) 작업을 지원합니다.특징정제된 데이터: 데이터를 저장하기 전에 전처리(ETL)를 수행하여 데이터의 품질과 구조를 통일.스키마 온 라이트(Schema-on-Write): 데이터를 저장하기 전에 스키마를 정의해야 함.구조화된 데이터: 데이터베이스, ERP, CRM 등에서 가져온 정형 데이터를 처리.빠른 쿼리 성능: SQL과 BI 도구를 활용한 빠르고 효율적인 쿼리 수행.목적: 데이터 분석, 보고서 작성, 대시보드 생성.사용 사..