BESS(Back-End Study Space)
회귀분석 본문
2020/11/19 - [데이터 분석 입문/기초통계] - 분산분석 (ANOVA)
#1. 회귀분석
- 원인이 되는 독립변수와 결과가 되는 종속변수가 모두 연속형 변수(즉, 등간척도나 비율척도)일 때 사용하는 분석방법
- 추정방식은 OLS(Ordinary Least Square)로 이루어지고, 이는 오차의 제곱을 최소화하는 직선이라는 의미
#2. 회귀분석의 원리
· y = b0 + b1 * x + e
- y : 종속변수
- x : 독립변수
- b0 : y절편
- b1 : 기울기 (종속변수의 변화량/독립변수의 변화량)
☞ 독립변수가 의미있는 영향을 미치는지를 판단 (b1이 0인지 아닌지)
- e: 오차 (직선과 각각 점으로 표현되어 있는 케이스간의 거리, 즉 편차)
- OLS : 오차(편차)의 제곱을 최소화할 수 있는 직선이 점들을 대표할 수 있다.
· 대표가설
- H0 : 독립변수가 종속변수에 미치는 영향의 크기는 '0'이다. ☞ 기울기가 0인지 아닌지 분석
- H1 ( 양측검증 ) : 독립변수가 종속변수에 미치는 영향의 크기는 '0'이 아니다.
- H1 ( 단측검증 ) : 독립변수가 종속변수에 미치는 영향의 크기는 '0'보다 크다.
#3. 회귀분석의 특징
- 회귀분석에서는 여러 개의 독립변수가 포함되어 종속변수에 어떠한 영향을 미치는 지 알 수 있음
- 여러 독립변수들을 포함하는 경우에는 서로 통제되어 자신의 독자적인 영향력으로 계산
- 예시 ) y = b0 + b1 * x1 + b2 * x2 + b3 * x3 + b4 * x4
☞ 독립변수가 4개(x1, x2, x3, x4) 포함되어있다고 가정할 경우, 4개의 독립변수들이 서로 함께 영향을 미치는 교집합 부분은 제외되고, 각각의 독립적인 영향력을 알 수 있음
#4. 설명량 ( R^2 , R square )
- 독립변수들에 의해서 설명되어지는 종속변수의 분산
- R^2가 증가할수록 회귀식에서 설명되어지지 못하는 오차는 감소
- 증가된 설명량(△R^2)을 이용해서 독립변수의 포함 여부를 결정
- y2는 y1에서 독립변수 x4가 새롭게 포함된 것
- 독립변수 x4가 포함되었을 때의 R^2가 더 높을 것임
- R^2의 증가량이 0이 아닐 경우, x4에 의해 설명되는 부분이 크다는 것을 의미하며 이 때 독립변수 x4는 회귀식에 포함되는 것이 좋음
- R^2의 증가량이 0과 비슷한 수치라면, x4에 의해 설명되는 부분이 그리 크지 않은 것으로 굳이 독립변수 x4를 회귀식에 포함할 필요 없음
- 보통 통계분석에서 x4의 회귀계수가 0이 아닌 수치라면, R^2의 증가량이 0이 아닌 수치라고 나옴
'데이터 분석 입문 > 기초통계' 카테고리의 다른 글
조절효과와 매개효과 (0) | 2020.11.20 |
---|---|
로지스틱 회귀분석 (0) | 2020.11.19 |
분산분석 (ANOVA) (0) | 2020.11.19 |
t-분석 (0) | 2020.11.19 |
양측 검증과 단측 검증 (0) | 2020.11.19 |