내 잡다한 노트

데이터 포맷(XML, JSON, CSV) 본문

크롤링

데이터 포맷(XML, JSON, CSV)

peanutwalnut 2022. 5. 30. 18:11

데이터 크기 : XML > JSON > CSV

# XML (eXtensible Markup Language)

장점 : XML은 3가지 포맷중 가장 직관적.

단점 : 실제 전송하는 정보보다 메타 데이터의 크기가 더 커질 수 있음

주요 사용처 : 단순 게임 옵션, 직접 데이터 수정이 잦은 부분에 사용

HTML과 유사한 구조를 가지고 있다. 다목적 마크업 언어로 태그 등을 이용하여 데이터의 구조를

기술하는 언어이다. HTML의 태그와 같이 꺽쇠(<>)를 사용하고 트리 계층 구조를 사용한다.

 

 

# JSON (JavaScript Object Notation)

장점 : 모양과 규칙 자체가 단순해서 타언어에서도 구현하기가 쉬움

단점 : 콤마가 누락되거나 중괄호가 잘못 닫히는 등 문법 오류에 취약하다.

주요 사용처 : 서버 통신 REST API를 사용할 때 가장 많이 사용

'속성- 값 쌍' 또는 '키- 값 쌍'으로 이루어진 데이터 오브젝트를 전달하기 위한 인간이 읽을 수

있는 텍스트를 사용하는 개방형 표준 포맷이다.

최근에는 xml을 대체해 많이 사용함.

 

# CSV

장점 : 용량이 가장 작기 때문에 변하지 않는 많은 양의 데이터를 제공할 때 주로 이용이 가능

단점 : 데이터가 많아지면 어떤 데이터가 항목을 나타내는지 가시화가 어려움

주요 사용처 : 간단한 테이블 작성 또는 읽는 속도가 중요한 부분에서 사용

쉼표를 기준으로 항목을 구분해 저장한 데이터이다.

db나 표 계산 데이터를 보조ㅗㄴ하기 위해 이런 형식을 사용한다.

쉼표로 구분하여 기록한다.

예시 : 

name, subject, score

고나리, 수학, 80

개나리, 영어, 20

 

 

 

'크롤링' 카테고리의 다른 글

크롤링해서 엑셀 파일로 만들기  (0) 2022.05.31
정규표현식 (regex)  (0) 2022.05.30
파이썬 문자열 함수 정리  (0) 2022.05.30
html parser 크롤링 예제코드와 이론  (0) 2022.05.28