일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- AI
- ggplot
- R프로그래밍
- NLP
- Hadoop
- R그래프
- 기계학습
- HIVE
- 데이터분석
- 하둡
- R시각화
- 머신러닝
- 자연어처리
- 주가예측
- r
- 데이터시각화
- 빅데이터처리
- Python
- CNN
- Deeplearning
- 빅데이터
- pandas
- SQL
- lstm
- 데이터
- word2vec
- 딥러닝
- 데이터처리
- 그래프
- 그래프시각화
- Today
- Total
욱이의 냉철한 공부
[통계기초] 통계분석 : 가설검정 : 비모수검정 본문
* 자료출저 및 참고강의
명지대 산업경영공학과 데이터마이닝 김도현 교수님 강의
패스트캠퍼스 올인원 패키지(금융공학/퀀트) 장순용 강사님 인터넷 강의
* 목차
통계모델링
1. 잔차(오차) 분석 : 타당성 진단 (전제조건 진단)
2. 잔차(오차) 분석 : 영향력 진단
3. 레버리지 분석 : 영향력 진단
4. 쿡의 거리 분석 : 영향력 진단
1. 잔차(오차) 분석 : 타당성 진단 (전제조건 진단)
- 잔차 정의
잔차는 실제 반응변수 값과 추정된 반응변수 값의 차이
- 타당성 검토해야 할 4가지
1) 선형성 : 종속변수는 설명변수의 선형조합으로 설명이 가능하다. 그러므로, 잔차에는 추세 없음
2) 독립성 : 잔차는 순서와 상관없이 독립적.
=> 특정 패턴을 보이지 말아야 한다.
3) 정상성 : 잔차의 분포가 정규분포를 따른다
=> (b)그래프에서 직선을 잘 따라야 한다.
4) 등분산성 : 잔차의 분산이 순서와 무관하게 일정.
=> 특정 패턴을 보이지 않아야 함.
- R에서의 예시
2. 잔차(오차) 분석 : 영향력 진단
- 잔차와 레버리지를 통한 영향력 분석을 하는 이유
잔차 : 종속변수 Y에서 특이값을 발견할 수 있음
레버리지 : 설명변수 X에서 특이값을 발견할 수 있음
- 잔차의 영향력 진단 개요
잔차는 실제 반응변수 값과 추정된 반응변수 값의 차이이다
=> 그러므로 Y(실제 반응변수)의 특이값을 쉽게 찾아낼 수 있음
- R에서의 예시
특이값(외상치) 쉽게 분별 가능
3. 레버리지 분석 : 영향력 진단
- 레버리지 개요
레버리지는 X값이 중앙에서 얼마나 멀리 있는지 나타냄.
레버리지가 크다는 것은 회귀계수에 영향이 크다는 의미.
=> X의 특이값을 쉽게 찾아낼 수 있음.
- 레버리지
i번째 관측값의 레버리지 :
Sum rule :
레버리지와 상대적 크기를 판단하는 기준 :
4. 쿡의 거리 분석 : 영향력 진단
- 쿡의 거리 개요
쿡의 거리는 전체적인 영향력을 나타냄
잔차와 레버리지의 개념의 "혼합"과 유사함.
- 쿡의 거리
i번째 관측값의 쿡의 거리 (Cook's Distance) :
- R에서의 예시
특이값(외상치) 쉽게 분별 가능
'데이터과학 > 개념 : Statistics' 카테고리의 다른 글
[통계모델링] 선형회귀분석 : 개요, 해 도출 (0) | 2020.04.19 |
---|---|
[통계모델링] 선형회귀분석 : 모형 진단, 모평 평가, 모형 선택 (0) | 2020.04.19 |
[통계기초] 통계분석 : 가설검정 : 비모수검정 (0) | 2020.04.19 |
[통계기초] 통계분석 : 가설검정 : 카이제곱(적합도, 독립성, 분산, 분산비) (0) | 2020.04.18 |
[통계기초] 통계분석 : 가설검정 : 모집단 둘 (0) | 2020.04.18 |