욱이의 냉철한 공부

[통계모델링] 선형회귀분석 : 모형 진단, 모평 평가, 모형 선택 본문

데이터과학/개념 : Statistics

[통계모델링] 선형회귀분석 : 모형 진단, 모평 평가, 모형 선택

냉철한 욱 2020. 4. 19. 16:09

* 자료출저 및 참고강의

명지대 산업경영공학과 데이터마이닝 김도현 교수님 강의

패스트캠퍼스 올인원 패키지(금융공학/퀀트) 장순용 강사님 인터넷 강의


 

* 목차

선형회귀분석 : 모형 유의성 진단

1. 모형의 검토 : t 검정을 적용한 회귀계수의 유의성 진단

2. 모형의 검토 : F 검정을 적용한 회귀모형의 유의성(설명력) 진단 (분산분석)

3. 모형의 검토 : R2 결정계수를 이용한 변동비율 진단

4. 모평의 평가 : MAE, MSE, MSE, RMSE

5. 모형(변수)의 선택 : VIF

4. 모형(변수)의 선택 : AIC, BIC

 


1. 모형의 검토 : t 검정을 적용한 회귀계수의 유의성 진단

- 목적

모형의 설명변수들은 통계적으로 유의미 있는지 확인

즉 개개의 회귀계수에 대한 t검정을 실시

- t검정

2. 모형의 검토 : F 검정을 적용한 회귀모형의 유의성(설명력) 진단(분산분석)

- 목적

회귀모형이 설명력을 제공하는지 확인

회귀모형의 독립변수 중 최소 한 개라도 종속변수를 설명하는 역할을 하고 있는지 진단.

- 회귀모형에서 F 검정 개요

- F 검정통계량은 어디서 나오는가? : 총제곱합(Total Sum of Squares, SSTO) 분해

총제곱합은 회귀식에 의해 설명되는 변동 (Regression Sum of Squares, SSR)

회귀식에 의해 설명되지 않는 잔차변동 (Residual Sum of Squares, SSE)로 분해 될 수 있음

- 분산분석표 (Analysis of Variance, ANOVA)

1) 단순회귀분석

2) 다항회귀분석

- 전체 회귀식에 대한 가설검정 : F검정 활용

3. 모형의 검토 : R2 결정계수를 이용한 변동비율 진단

- R2 : 결정계수(coefficient of determination)

전체 변동 중 회귀식에 의해 설명되는 변동의 비율

대표적인 진단 척도중의 하나

- R2 특징

1) 0 < R2 < 1이며 R2이 1에 가까울 수록 좋음

2) 모형이 복잡해 질수록 R2은 증가. (즉 변수가 많을수록 R2 증가)

=> R2만을 기준으로 모형을 만들면 과적합 현상이 쉽게 발생하니 주의

3) 독립변수가 하나 뿐인 경우에는 R2은 X와 Y 사이의 상관계수의 제곱과 같음.

​- 모형의 검토 요약

4. 모형의 평가 : MAE, MSE, MAPE, RMSE

- MAE(mean absolute error) 절대평균오차

절대평균오차의 크기를 말함, 작을수록 좋음, 예측값과 실제값 사이의 차이

- average error 평균오차

예측결과가 평균적으로 반응변수를 과대예측하는지 또는 과소예측하는지를 알려줌

- MAPE(mean absoluate percentage error) 평균절대비율오차

예측 결과가 평균적으로 얼마나 실제값에서 벗어나 있는지를 백분율의 점수로 나타냄

- RMSE(root-mean-squared error) 평균제곱오차의 제곱근

학습용 데이터가 아닌 평가용 데이터에서 계산.

예측된 변수와 동일한 측정단위를 사용됨

5. 모형(변수)의 선택 : VIF

- 공선성 정의

공선성은 피해야 한다.

독립변수들 간에 완전환 또는 거의 완전한 선형의 종속관계가 존재하는 것을 의미

ex) X1과 X2는 모두 Y에 영향을 준다.

그런데 X1과 X2사이에 강한 선형의 상관과계가 존재함

- 공선성을 피해야 하는 이유

정확한 모수 추정 및 검정에 어려움이 있음.

회귀계수는 한 단위 증가할 때 종속변수의 변화량을 의미하는데,

두 독립변수간의 높은 상관과계가 존재할 경우 이에 대한 해석이 어려움

- Tolerance(공차한계), VIF(Variance Inflation Factor, 분산팽창요인) 계산

1) 변수 Xi를 종속변수의 역할에 놓고 나머지 설명변수로 새로운 선형회귀식을 만듬

2) 해당 결정계수 R(i)2를 이용하여, Tolerance, VIF(i)를 계산

3) 해석

6. 모형(변수)의 선택 : AIC, BIC

- 정보량 (Information Criteria) : AIC, BIC

-> AIC (BIC)는 두 개의 상반된 트렌드의 합

- 부분은 모형이 복잡할수록 감소

+ 부분은 모형이 복잡할수록 증가 (P는 모형의 파라미터 수)

-> AIC (BIC)를 최소화 하려고 한다.

합이 최소인 최적점을 찾아야 한다.

- 모형(변수)의 선택 방법

R2은 1에 가까워져야 한다.

AIC(BIC)가 감소하는 방향으로 최적화 진행

모형이 잘못된 방향으로 변경되면, AIC(BIC)는 감소하는 대신 증가한다.

그렇기 때문에 이 직전에 모형을 멈추어 복잡성을 낮춰야 한다.