일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 그래프
- 데이터처리
- 데이터
- 기계학습
- word2vec
- AI
- pandas
- r
- 빅데이터
- SQL
- Hadoop
- 데이터분석
- lstm
- Python
- CNN
- 딥러닝
- Deeplearning
- ggplot
- 그래프시각화
- NLP
- HIVE
- R프로그래밍
- 데이터시각화
- R그래프
- 빅데이터처리
- 자연어처리
- 주가예측
- 머신러닝
- R시각화
- 하둡
- Today
- Total
욱이의 냉철한 공부
[통계모델링] 선형회귀분석 : 종류 본문
* 자료출저 및 참고강의
패스트캠퍼스 올인원 패키지(금융공학/퀀트) 장순용 강사님 인터넷 강의
명지대 산업경영공학과 데이터마이닝 김도현 교수님 강의
* 목차
통계모델링
1. 편향오류(과소적합), 분산오류(과적합)
2. 회귀종류 : Ridge 회귀 (L2 정규화)
3. 회귀종류 : Lasso 회귀 (L1 정규화)
4. 회귀종류 : 다항식 회귀
5. 회규종류 : 푸아송 회귀
1. 편향오류(과소적합), 분산오류(과적합)
모형이 편향적 즉 과하게 단순해서 발생하는 오류
2) 분산오류(variance error) : 과적합 오류(overfitting error)
모형이 과하게 복잡하여 발생하는 오류.
매개변수 최적화의 어려움으로 표출
training sample 오류는 작지만, testing sample 오류는 큼.
* 토탈오류 = 편향오류 + 분산오류 + 상수
* testing sample 오류의 최소화 지향해야한다.
=> 모형의 복잡함에 있어서 최적점이 있다. 이 최적점을 찾아야 한다.
* 최적점을 찾은 모델링
2. Ridge 회귀 (L2 정규화)
- Ridge 회귀 개요
기존 회귀식의 학습은 오차제곱을 최소화하는 계수벡터를 구하는 것이었다.
하지만 Ridge회귀에서는 아래와 같은 손실함수를 최소화하는 계수벡터를 구하는 것이 목표이다.
- λ의 역할
하이퍼파라미터로서 튜닝해야 한다.
λ이 크면 클수록 분산오류(과적합)을 줄이며 편향오류(과소적합)을 증가시킨다.
- Ridge 회귀 목표
즉 과적합 상황이 의심될 때 과적합을 줄이기 위해 사용하는 것이다.
- Ridge 회귀식 설명
회귀계수의 절대값은 억제되지만 정확하게 0이 되지는 않는다.
λ이 크면 클수록 회귀계수(B)의 증가를 억제한다.
왜냐하면 L을 줄이고자 할테니 B는 최소화 되는 것이다.
- RIdge 회귀를 사용하면서 최적화
검정색박스처럼 Variance는 높고, Bias는 낮을때(과저합), Lasso회귀 사용
Lasso회귀 사용하면서, 회귀계수 값들이 낮아지면서 가벼운 모델로 학습한다.
3. Lasso 회귀 (L1 정규화)
- Lasso 회귀 개요
기존 회귀식의 학습은 오차제곱을 최소화하는 계수벡터를 구하는 것이었다.
하지만 Lasso회귀에서는 아래와 같은 손실함수를 최소화하는 계수벡터를 구하는 것이 목표이다.
- λ의 역할
하이퍼파라미터로서 튜닝해야 한다.
λ이 크면 클수록 편향오류(과소적합)의 증가가 분산오류(과적합)의 감소를 상쇄하고도 남을 수 있으니 주의해야 한다.
- Lasso 회귀 목표
Ridge 회귀와 마찬가지로 과적합 상황이 의심될 때 과적합을 줄이기 위해 사용하는 것이다.
- Lasso 회귀식 설명
회귀계수의 정확하게 0이 될 수 있다.
λ이 크면 클수록 회귀계수(B)의 증가를 억제한다.
왜냐하면 L을 줄이고자 할테니 B는 최소화 되는 것이다.
4. 다항식 회귀
- 다항식 회귀 개요
주의할 부분은 단 하나의 설명변수 X가 있다는 부분
5. 푸아송 회귀
- 푸아송 회귀 개요
종속변수 Y가 횟수를 나타내는 경우에 사용
- 푸아송 확률분포함수
'데이터과학 > 개념 : Statistics' 카테고리의 다른 글
[통계모델링] 로지스틱회귀분석 (0) | 2020.04.19 |
---|---|
[통계모델링] 데이터마이닝 모델링 개요 (0) | 2020.04.19 |
[통계모델링] 선형회귀분석 : 개요, 해 도출 (0) | 2020.04.19 |
[통계모델링] 선형회귀분석 : 모형 진단, 모평 평가, 모형 선택 (0) | 2020.04.19 |
[통계기초] 통계분석 : 가설검정 : 비모수검정 (0) | 2020.04.19 |