BESS(Back-End Study Space)

회귀분석 본문

데이터 분석 입문/기초통계

회귀분석

leeez 2020. 11. 19. 16:58

2020/11/19 - [데이터 분석 입문/기초통계] - 분산분석 (ANOVA)

 

분산분석 (ANOVA)

2020/11/19 - [데이터 분석 입문/기초통계] - t-분석 t-분석 2020/11/19 - [데이터 분석 입문/기초통계] - 양측 검증과 단측 검증 #1. t-분석 - 독립변수가 비연속형 변수(즉, 명목척도나 서열척도)이고, 종속

leeezxxswd.tistory.com

#1. 회귀분석

- 원인이 되는 독립변수와 결과가 되는 종속변수가 모두 연속형 변수(즉, 등간척도나 비율척도)일 때 사용하는 분석방법
- 추정방식은 OLS(Ordinary Least Square)로 이루어지고, 이는 오차의 제곱을 최소화하는 직선이라는 의미

 

#2. 회귀분석의 원리

· y = b0 + b1 * x + e

- y : 종속변수
- x : 독립변수
- b0 : y절편
- b1 : 기울기 (종속변수의 변화량/독립변수의 변화량)
☞ 독립변수가 의미있는 영향을 미치는지를 판단 (b1이 0인지 아닌지)
- e: 오차 (직선과 각각 점으로 표현되어 있는 케이스간의 거리, 즉 편차)

- OLS : 오차(편차)의 제곱을 최소화할 수 있는 직선이 점들을 대표할 수 있다.

 

· 대표가설
- H0 : 독립변수가 종속변수에 미치는 영향의 크기는 '0'이다.   기울기가 0인지 아닌지 분석
- H1 ( 양측검증 ) : 독립변수가 종속변수에 미치는 영향의 크기는 '0'이 아니다.
- H1 ( 단측검증 ) : 독립변수가 종속변수에 미치는 영향의 크기는 '0'보다 크다.


#3. 회귀분석의 특징

- 회귀분석에서는 여러 개의 독립변수가 포함되어 종속변수에 어떠한 영향을 미치는 지 알 수 있음
- 여러 독립변수들을 포함하는 경우에는 서로 통제되어 자신의 독자적인 영향력으로 계산

- 예시 ) y = b0 + b1 * x1 + b2 * x2 + b3 * x3 + b4 * x4
독립변수가 4개(x1, x2, x3, x4) 포함되어있다고 가정할 경우, 4개의 독립변수들이 서로 함께 영향을 미치는 교집합 부분은 제외되고, 각각의 독립적인 영향력을 알 수 있음

 

#4. 설명량 ( R^2 , R square )

- 독립변수들에 의해서 설명되어지는 종속변수의 분산
- R^2가 증가할수록 회귀식에서 설명되어지지 못하는 오차는 감소
- 증가된 설명량(△R^2)을 이용해서 독립변수의 포함 여부를 결정

- y2는 y1에서 독립변수 x4가 새롭게 포함된 것
- 독립변수 x4가 포함되었을 때의 R^2가 더 높을 것임


- R^2의 증가량이 0이 아닐 경우, x4에 의해 설명되는 부분이 크다는 것을 의미하며 이 때 독립변수 x4는 회귀식에 포함되는 것이 좋음
- R^2의 증가량이 0과 비슷한 수치라면, x4에 의해 설명되는 부분이 그리 크지 않은 것으로 굳이 독립변수 x4를 회귀식에 포함할 필요 없음
- 보통 통계분석에서 x4의 회귀계수가 0이 아닌 수치라면, R^2의 증가량이 0이 아닌 수치라고 나옴



'데이터 분석 입문 > 기초통계' 카테고리의 다른 글

조절효과와 매개효과  (0) 2020.11.20
로지스틱 회귀분석  (0) 2020.11.19
분산분석 (ANOVA)  (0) 2020.11.19
t-분석  (0) 2020.11.19
양측 검증과 단측 검증  (0) 2020.11.19