목록2025/02/08 (1)
내 잡다한 노트
대규모 데이터를 다루기 위한 기초지식
대규모 데이터를 다루는 방법은 두가지 관점에서 바라볼 수 있다. 1. 프로그램을 작성할 때의 요령2. 프로그램 개발의 근간이 되는 기초라는 점에서 전제로서 알아두었으면 하는 것 대규모 데이터를 다루는 포인트1. 메모리에서 처리를 마치게 하는 점이거에 대한 이유는 디스크 seek 횟수가 확장성, 성능에 크게 영향을 주기 때문.디스크 seek 횟수를 최소화한다는 의미로 메모리를 활용하고자 한다. 2. 데이터량 증가에 강한 알고리즘을 사용하는 것레코드 천만건이 있을 때 단순히 선형탐색으로 하면 천만번 계산을 수행해야 하는데, Log Order인 알고리즘을 적용하면 수십 번만에 마칠 수 있다는 예시가 있다 3. 데이터 압축이나 검색기술과 같은 테크닉이 활용될 수 있는 국면이 있다.단적으로 말하면 압축해서 데이터..
데이터엔지니어
2025. 2. 8. 13:23