BESS(Back-End Study Space)
정형 & 비정형 데이터 본문
2020/12/07 - [데이터 분석 입문/데이터 엔지니어링] - Crawling, ETL
#1. 정형 데이터
- Structured Data
- 엑셀 등의 스프레드시트에서 작업하듯 열과 행을 정리하여 일목 요연하게 표로 만들 수 있는 데이터
- 정형 데이터를 쉽게 다루기 위해 관계형 데이터베이스(RDB : Relational Database)가 활용되기도 함
- 정형 데이터를 File로 변환할 경우에는 CSV(Comma Separated Values), TSV(Tab Separated Values)
#2. 비정형 데이터
- Unstructed Data
- 문서, 동영상, 사진, 음성 등의 형태를 정의할 수 없는 데이터
- 정형 데이터를 다루는 RDB에서 활용이 불가능함
- 분석을 위해서는 비정형 데이터를 정형화하는 다양한 과정이 필요
#3. 반정형 데이터
- Semi- structured Data
- 관계형 데이터베이스나 다른 형태의 데이터 테이블과 연결된 정형 구조의 데이터 모델을 준수하지 않는 정형 데이터의 한 형태
- 각 의미를 구분할 수는 있지만 행과 열 형태의 표로 쉽게 정리가 어려움 → 파싱(Parsing) 필요
- 변환 과정을 거쳐 데이터 분석에 활용 가능함
- JSON, XML, HTML
'데이터 분석 입문 > 데이터 엔지니어링' 카테고리의 다른 글
Crawling, ETL (0) | 2020.12.07 |
---|