BESS(Back-End Study Space)

데이터 분석이란, 본문

데이터 분석 입문/배경지식

데이터 분석이란,

leeez 2020. 11. 16. 14:11

#1. 데이터 분석 종류

1. 확증적 데이터 분석(confirmatory data analysis)
- 미리 정해놓은 목표에 따라 설정한 가설을 확인하기 위한 분석
- 추정(estimation)검정(test)을 이용
- 연구의 데이터 분석 방법
- 예) 기온에 따라 커피 전문점의 방문객 수가 다를까? ☞ 기상청의 기온 데이터를 커피 전문점의 판매 데이터에 붙여서 간단히 요약한다.

2. 탐색적 데이터 분석(exploratory data analysis)
- 분석 목표가 명확하지 않거나 데이터에 대한 이해가 떨어질 때 사용
- 변수, 변수의 관계 등 데이터 자체의 특성을 확인하기 위한 분석
- 간단한 기술 통계량 계산과 다양한 그래프를 활용
- 모든 데이터 분석의 시작 단계에서 필수적인 과정
   > 분석 목표가 확실하더라도 데이터를 더 잘 이해하기 위해서 꼭 필요한 과정
- 예) 커피 전문점에서 데이터로 정확히 뭘 해야할지 모르겠지만 데이터를 분석해서 커피 판매와 관련된 인사이트가 있을까?
       주문상품과 관련 변수를 하나씩 살펴보는 등 변수간의 관계를 살펴보며 확인한다.

 

#2. 데이터 분석 방법

1. 요약(aggregation)
- 데이터의 정보를 인식 가능한 수준으로 줄이는 과정, 데이터를 압축하는 과정
- 그룹별 관측치 수, 평균, 최댓값 계산 등 단순 숫자요약을 의미
- 탐색적 데이터 분석에 사용
- 예) 전체 매장의 데이터를 요약해서 "매장별 혼잡 시간대 계산"

2. 모형(model)
- 정해진 알고리즘에 따라 데이터 속 변수와 관측치 간 관계를 확인
- 요약과 달리, 조금 더 복잡한 관계를 알고리즘으로 설명
- 가능성을 수치화한 확률로 설명
- 예) "날씨/요일/시간대에 따른 매장별 손님수와 주문상품 예측"

 

#3. 데이터 가공의 필요성

1. 데이터 가공(manipulation)
- 데이터 인식과 분석에 알맞게 데이터의 형태를 변환하는 과정
> 1. 부분 데이터 선택 : 관심있는 관측치와 변수를 선택
       예) "시청 지점 고객의 성별/ 연령에 따른 상품 선호도 분석"
> 2. 변수 결합, 분해 및 파생변수 생성
       예) 고객의 연령 대신 연령대 변수를 활용 연령은 너무 다양해서 데이터를 활용하는데 불편함 존재

 

#4. 데이터 분석의 실행

Source : Shmueli et al., Data Mining for Business Intelligence, 2010 재구성

 1. 분석 목표 설정
- 실행 가능성과 활용 가능성을 고려해서 결정

2. 데이터 수집
- 내부 데이터 및 관련 있는 외부 데이터를 활용

--- 목표 설정 및 데이터 준비 완료 ---

3. 탐색적 데이터 분석
- 변수나 변수 관계에 대한 열린 분석 실행

4. 확증적 데이터 분석 / 모형 적합
- 검정, 알고리즘 등을 활용한 분석 실행

                           ▼

동일한 분석을 반복
하여 결과의 재현 확인 필요

피드백
을 통해 분석 목표 및 데이터 처리, 분석 방법 수정 고려

분석의 정교화 및 모형의 고도화

5. 분석 결과공유 : 시각화/ 문서화
- 분석과 분석 결과의 요약 : 전체 분석 과정이 아닌 분석의 흐름을 이해할 수 있는 수준으로 요약
- 효과적인 정보전달을 위한 그래프 활용 필요
- 적절한 도구를 활용하여 전달
 > 1. markdown : R, Python 등에서 분석과 동시에 보고서 작성 가능
 > 2. dashboard : 웹 기반으로 동적 보고서 작성 가능