BESS(Back-End Study Space)

정형 & 비정형 데이터 본문

데이터 분석 입문/데이터 엔지니어링

정형 & 비정형 데이터

leeez 2020. 12. 7. 12:24

2020/12/07 - [데이터 분석 입문/데이터 엔지니어링] - Crawling, ETL

 

Crawling, ETL

#1. 크롤링(crawling, (=Scraping)) - 다양한 정보를 활용하기 쉽도록 수집하는 행위 - 크롤링을 하는 프로그램을 크롤러(Crawler)라고 함 - 웹의 데이터를 자동화해 가져오는 크롤러가 웹 크롤러(Web Crawler)

leeezxxswd.tistory.com

#1. 정형 데이터

- Structured Data
- 엑셀 등의 스프레드시트에서 작업하듯 열과 행을 정리하여 일목 요연하게 표로 만들 수 있는 데이터
- 정형 데이터를 쉽게 다루기 위해 관계형 데이터베이스(RDB : Relational Database)가 활용되기도 함
- 정형 데이터를 File로 변환할 경우에는 CSV(Comma Separated Values), TSV(Tab Separated Values)

 

#2. 비정형 데이터

- Unstructed Data
- 문서, 동영상, 사진, 음성 등의 형태를 정의할 수 없는 데이터
- 정형 데이터를 다루는 RDB에서 활용이 불가능함
- 분석을 위해서는 비정형 데이터를 정형화하는 다양한 과정이 필요

 

#3. 반정형 데이터

- Semi- structured Data
- 관계형 데이터베이스나 다른 형태의 데이터 테이블과 연결된 정형 구조의 데이터 모델을 준수하지 않는 정형 데이터의 한 형태
- 각 의미를 구분할 수는 있지만 행과 열 형태의 표로 쉽게 정리가 어려움파싱(Parsing) 필요
- 변환 과정을 거쳐 데이터 분석에 활용 가능함
- JSON, XML, HTML

'데이터 분석 입문 > 데이터 엔지니어링' 카테고리의 다른 글

Crawling, ETL  (0) 2020.12.07