BESS(Back-End Study Space)
Crawling, ETL 본문
#1. 크롤링(crawling, (=Scraping))
- 다양한 정보를 활용하기 쉽도록 수집하는 행위
- 크롤링을 하는 프로그램을 크롤러(Crawler)라고 함
- 웹의 데이터를 자동화해 가져오는 크롤러가 웹 크롤러(Web Crawler)
#2. ETL
- Extract(추출), Transformation(변환), Loading(저장)
- 내외부의 다수의 데이터를 추출하고 이를 필요에 맞게 변환 후 저장하는 일련의 절차를 의미
- Data Warehouse라는 데이터 분석을 위한 저장구조를 마련하는데 매우 중요한 절차
- ETL 오픈소스 도구
· Talend
· Pentaho
· KNIME
· Apache NIFI (많이 활용됨)
· StreamSets
· ...
#3. ELT
- Extract(추출), Loading(저장), Transformation(변환)
- ETL의 Transformation과 Loading의 순서를 바꿔 진행하는 절차의 의미
- 데이터 크기가 너무 큰 경우,
변환과정에서 다수의 시간이 소요되어 이후에 처리하는 경우,
변환과정이 추후 활용하는 단계에서 필요한 경우에 쓰임
'데이터 분석 입문 > 데이터 엔지니어링' 카테고리의 다른 글
정형 & 비정형 데이터 (0) | 2020.12.07 |
---|