나의 잡다한 노트 및 메모
Druid에서 Parser의 역할 본문
Druid에서 PARSER는 주로 데이터 수집(ingestion) 과정에서 원시 데이터를 구조화된 형식으로 변환하는 역할을 합니다. 구체적으로는, 아래와 같은 역할을 합니다:
- 원시 데이터 해석:
외부 소스(예: 로그 파일, 스트림 데이터, CSV, JSON 등)로부터 입력된 데이터를 읽고, 그 데이터를 Druid가 처리할 수 있는 이벤트(행) 단위로 변환합니다. - 필드 추출 및 변환:
데이터를 파싱하면서 타임스탬프나 각종 필드(차원, 메트릭)를 추출하고, 필요시 데이터 타입 변환, 포맷 변경 등의 작업을 수행합니다. 예를 들어, JSON 형식의 로그에서 특정 키 값을 추출하거나, CSV의 각 열을 분리해내는 작업을 담당합니다. - 구조화:
파싱된 데이터를 Druid 내부에서 인덱싱하고 쿼리할 수 있도록 구조화합니다. 이 과정에서 각 필드를 어떻게 다룰지(예: 인덱스로 사용할지, 메트릭으로 사용할지)를 정의할 수 있습니다.
즉, PARSER는 Druid가 원시 데이터를 받아들여 쿼리 가능한 구조의 이벤트로 만들어주는 “전처리 단계”라고 생각하면 됩니다. 이 설정이 제대로 되어야 데이터가 올바르게 인덱싱되고, 이후 분석 및 쿼리 성능에도 큰 영향을 미치게 됩니다.
'데이터엔지니어 > Druid' 카테고리의 다른 글
Supervisors 란? (0) | 2025.03.02 |
---|---|
Datasources 단계 (0) | 2025.03.02 |
Druid에서 Tune parameters 단계 (0) | 2025.03.02 |
Druid에서 Filter 단계 (0) | 2025.03.02 |
Druid 아키텍처 중 주요 컴포넌트의 역할 (0) | 2025.03.01 |