일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- SQL
- 그래프
- 기계학습
- Hadoop
- 빅데이터처리
- r
- R프로그래밍
- R시각화
- 데이터시각화
- 자연어처리
- R그래프
- 딥러닝
- Python
- 그래프시각화
- 데이터처리
- AI
- CNN
- 주가예측
- pandas
- 하둡
- HIVE
- word2vec
- Deeplearning
- 데이터
- 머신러닝
- NLP
- 빅데이터
- lstm
- ggplot
- 데이터분석
- Today
- Total
욱이의 냉철한 공부
[통계모델링] 선형회귀분석 : 모형 진단, 모평 평가, 모형 선택 본문
* 자료출저 및 참고강의
명지대 산업경영공학과 데이터마이닝 김도현 교수님 강의
패스트캠퍼스 올인원 패키지(금융공학/퀀트) 장순용 강사님 인터넷 강의
* 목차
선형회귀분석 : 모형 유의성 진단
1. 모형의 검토 : t 검정을 적용한 회귀계수의 유의성 진단
2. 모형의 검토 : F 검정을 적용한 회귀모형의 유의성(설명력) 진단 (분산분석)
3. 모형의 검토 : R2 결정계수를 이용한 변동비율 진단
4. 모평의 평가 : MAE, MSE, MSE, RMSE
5. 모형(변수)의 선택 : VIF
4. 모형(변수)의 선택 : AIC, BIC
1. 모형의 검토 : t 검정을 적용한 회귀계수의 유의성 진단
- 목적
모형의 설명변수들은 통계적으로 유의미 있는지 확인
즉 개개의 회귀계수에 대한 t검정을 실시
- t검정
2. 모형의 검토 : F 검정을 적용한 회귀모형의 유의성(설명력) 진단(분산분석)
- 목적
회귀모형이 설명력을 제공하는지 확인
회귀모형의 독립변수 중 최소 한 개라도 종속변수를 설명하는 역할을 하고 있는지 진단.
- 회귀모형에서 F 검정 개요
- F 검정통계량은 어디서 나오는가? : 총제곱합(Total Sum of Squares, SSTO) 분해
총제곱합은 회귀식에 의해 설명되는 변동 (Regression Sum of Squares, SSR)과
회귀식에 의해 설명되지 않는 잔차변동 (Residual Sum of Squares, SSE)로 분해 될 수 있음
- 분산분석표 (Analysis of Variance, ANOVA)
1) 단순회귀분석
2) 다항회귀분석
- 전체 회귀식에 대한 가설검정 : F검정 활용
3. 모형의 검토 : R2 결정계수를 이용한 변동비율 진단
- R2 : 결정계수(coefficient of determination)
전체 변동 중 회귀식에 의해 설명되는 변동의 비율
대표적인 진단 척도중의 하나
- R2 특징
1) 0 < R2 < 1이며 R2이 1에 가까울 수록 좋음
2) 모형이 복잡해 질수록 R2은 증가. (즉 변수가 많을수록 R2 증가)
=> R2만을 기준으로 모형을 만들면 과적합 현상이 쉽게 발생하니 주의
3) 독립변수가 하나 뿐인 경우에는 R2은 X와 Y 사이의 상관계수의 제곱과 같음.
- 모형의 검토 요약
4. 모형의 평가 : MAE, MSE, MAPE, RMSE
- MAE(mean absolute error) 절대평균오차
절대평균오차의 크기를 말함, 작을수록 좋음, 예측값과 실제값 사이의 차이
- average error 평균오차
예측결과가 평균적으로 반응변수를 과대예측하는지 또는 과소예측하는지를 알려줌
- MAPE(mean absoluate percentage error) 평균절대비율오차
예측 결과가 평균적으로 얼마나 실제값에서 벗어나 있는지를 백분율의 점수로 나타냄
- RMSE(root-mean-squared error) 평균제곱오차의 제곱근
학습용 데이터가 아닌 평가용 데이터에서 계산.
예측된 변수와 동일한 측정단위를 사용됨
5. 모형(변수)의 선택 : VIF
- 공선성 정의
공선성은 피해야 한다.
독립변수들 간에 완전환 또는 거의 완전한 선형의 종속관계가 존재하는 것을 의미
ex) X1과 X2는 모두 Y에 영향을 준다.
그런데 X1과 X2사이에 강한 선형의 상관과계가 존재함
- 공선성을 피해야 하는 이유
정확한 모수 추정 및 검정에 어려움이 있음.
회귀계수는 한 단위 증가할 때 종속변수의 변화량을 의미하는데,
두 독립변수간의 높은 상관과계가 존재할 경우 이에 대한 해석이 어려움
- Tolerance(공차한계), VIF(Variance Inflation Factor, 분산팽창요인) 계산
1) 변수 Xi를 종속변수의 역할에 놓고 나머지 설명변수로 새로운 선형회귀식을 만듬
2) 해당 결정계수 R(i)2를 이용하여, Tolerance, VIF(i)를 계산
3) 해석
6. 모형(변수)의 선택 : AIC, BIC
- 정보량 (Information Criteria) : AIC, BIC
-> AIC (BIC)는 두 개의 상반된 트렌드의 합
- 부분은 모형이 복잡할수록 감소
+ 부분은 모형이 복잡할수록 증가 (P는 모형의 파라미터 수)
-> AIC (BIC)를 최소화 하려고 한다.
합이 최소인 최적점을 찾아야 한다.
- 모형(변수)의 선택 방법
R2은 1에 가까워져야 한다.
AIC(BIC)가 감소하는 방향으로 최적화 진행
모형이 잘못된 방향으로 변경되면, AIC(BIC)는 감소하는 대신 증가한다.
그렇기 때문에 이 직전에 모형을 멈추어 복잡성을 낮춰야 한다.
'데이터과학 > 개념 : Statistics' 카테고리의 다른 글
[통계모델링] 선형회귀분석 : 종류 (0) | 2020.04.19 |
---|---|
[통계모델링] 선형회귀분석 : 개요, 해 도출 (0) | 2020.04.19 |
[통계기초] 통계분석 : 가설검정 : 비모수검정 (0) | 2020.04.19 |
[통계기초] 통계분석 : 가설검정 : 비모수검정 (0) | 2020.04.19 |
[통계기초] 통계분석 : 가설검정 : 카이제곱(적합도, 독립성, 분산, 분산비) (0) | 2020.04.18 |