욱이의 냉철한 공부

[통계기초] 통계분석 : 가설검정 : 비모수검정 본문

데이터과학/개념 : Statistics

[통계기초] 통계분석 : 가설검정 : 비모수검정

냉철한 욱 2020. 4. 19. 16:04

* 자료출저 및 참고강의

명지대 산업경영공학과 데이터마이닝 김도현 교수님 강의

패스트캠퍼스 올인원 패키지(금융공학/퀀트) 장순용 강사님 인터넷 강의


* 목차

통계모델링

1. 잔차(오차) 분석 : 타당성 진단 (전제조건 진단)

2. 잔차(오차) 분석 : 영향력 진단

3. 레버리지 분석 : 영향력 진단

4. 쿡의 거리 분석 : 영향력 진단

 


 

1. 잔차(오차) 분석 : 타당성 진단 (전제조건 진단)

- 잔차 정의

잔차는 실제 반응변수 값과 추정된 반응변수 값의 차이

- 타당성 검토해야 할 4가지

1) 선형성 : 종속변수는 설명변수의 선형조합으로 설명이 가능하다. 그러므로, 잔차에는 추세 없음

2) 독립성 : 잔차는 순서와 상관없이 독립적.

=> 특정 패턴을 보이지 말아야 한다.

3) 정상성 : 잔차의 분포가 정규분포를 따른다

=> (b)그래프에서 직선을 잘 따라야 한다.

4) 등분산성 : 잔차의 분산이 순서와 무관하게 일정.

=> 특정 패턴을 보이지 않아야 함.

 

- R에서의 예시

2. 잔차(오차) 분석 : 영향력 진단

- 잔차와 레버리지를 통한 영향력 분석을 하는 이유

잔차 : 종속변수 Y에서 특이값을 발견할 수 있음

레버리지 : 설명변수 X에서 특이값을 발견할 수 있음

- 잔차의 영향력 진단 개요

잔차는 실제 반응변수 값과 추정된 반응변수 값의 차이이다

=> 그러므로 Y(실제 반응변수)의 특이값을 쉽게 찾아낼 수 있음

- R에서의 예시

특이값(외상치) 쉽게 분별 가능

3. 레버리지 분석 : 영향력 진단

- 레버리지 개요

레버리지는 X값이 중앙에서 얼마나 멀리 있는지 나타냄.

레버리지가 크다는 것은 회귀계수에 영향이 크다는 의미.

=> X의 특이값을 쉽게 찾아낼 수 있음.

- 레버리지

i번째 관측값의 레버리지 :

Sum rule :

레버리지와 상대적 크기를 판단하는 기준 :

4. 쿡의 거리 분석 : 영향력 진단

- 쿡의 거리 개요

쿡의 거리는 전체적인 영향력을 나타냄

잔차와 레버리지의 개념의 "혼합"과 유사함.

- 쿡의 거리

i번째 관측값의 쿡의 거리 (Cook's Distance) :

- R에서의 예시

특이값(외상치) 쉽게 분별 가능