Druid에서 Parser의 역할

Notice

Recent Posts

Tags more

Archives

관리 메뉴

나의 잡다한 노트 및 메모

데이터엔지니어/Druid

peanutwalnut 2025. 3. 2. 20:05

Druid에서 PARSER는 주로 데이터 수집(ingestion) 과정에서 원시 데이터를 구조화된 형식으로 변환하는 역할을 합니다. 구체적으로는, 아래와 같은 역할을 합니다:

원시 데이터 해석:
외부 소스(예: 로그 파일, 스트림 데이터, CSV, JSON 등)로부터 입력된 데이터를 읽고, 그 데이터를 Druid가 처리할 수 있는 이벤트(행) 단위로 변환합니다.
필드 추출 및 변환:
데이터를 파싱하면서 타임스탬프나 각종 필드(차원, 메트릭)를 추출하고, 필요시 데이터 타입 변환, 포맷 변경 등의 작업을 수행합니다. 예를 들어, JSON 형식의 로그에서 특정 키 값을 추출하거나, CSV의 각 열을 분리해내는 작업을 담당합니다.
구조화:
파싱된 데이터를 Druid 내부에서 인덱싱하고 쿼리할 수 있도록 구조화합니다. 이 과정에서 각 필드를 어떻게 다룰지(예: 인덱스로 사용할지, 메트릭으로 사용할지)를 정의할 수 있습니다.

즉, PARSER는 Druid가 원시 데이터를 받아들여 쿼리 가능한 구조의 이벤트로 만들어주는 “전처리 단계”라고 생각하면 됩니다. 이 설정이 제대로 되어야 데이터가 올바르게 인덱싱되고, 이후 분석 및 쿼리 성능에도 큰 영향을 미치게 됩니다.

'데이터엔지니어/Druid' Related Articles