BESS(Back-End Study Space)

Crawling, ETL 본문

데이터 분석 입문/데이터 엔지니어링

Crawling, ETL

leeez 2020. 12. 7. 12:11

#1. 크롤링(crawling, (=Scraping))


- 다양한 정보를 활용하기 쉽도록 수집하는 행위
- 크롤링을 하는 프로그램을 크롤러(Crawler)라고 함
- 웹의 데이터를 자동화해 가져오는 크롤러가 웹 크롤러(Web Crawler)

 

#2. ETL


- Extract(추출), Transformation(변환), Loading(저장)
- 내외부의 다수의 데이터를 추출하고 이를 필요에 맞게 변환 후 저장하는 일련의 절차를 의미
- Data Warehouse라는 데이터 분석을 위한 저장구조를 마련하는데 매우 중요한 절차
- ETL 오픈소스 도구
  · Talend
  ·
Pentaho
  ·
KNIME
  ·
Apache NIFI (많이 활용됨)
  ·
StreamSets
  ·
...

 

#3. ELT


- Extract(추출), Loading(저장), Transformation(변환)
- ETL의 TransformationLoading의 순서를 바꿔 진행하는 절차의 의미
- 데이터 크기가 너무 큰 경우,
  변환과정에서 다수의 시간이 소요되어 이후에 처리하는 경우,
  변환과정이 추후 활용하는 단계에서 필요한 경우에 쓰임

 

'데이터 분석 입문 > 데이터 엔지니어링' 카테고리의 다른 글

정형 & 비정형 데이터  (0) 2020.12.07