욱이의 냉철한 공부

[통계모델링] 선형회귀분석 : 종류 본문

데이터과학/개념 : Statistics

[통계모델링] 선형회귀분석 : 종류

냉철한 욱 2020. 4. 19. 16:17

* 자료출저 및 참고강의

패스트캠퍼스 올인원 패키지(금융공학/퀀트) 장순용 강사님 인터넷 강의

명지대 산업경영공학과 데이터마이닝 김도현 교수님 강의


* 목차

통계모델링

1. 편향오류(과소적합), 분산오류(과적합)

2. 회귀종류 : Ridge 회귀 (L2 정규화)

3. 회귀종류 : Lasso 회귀 (L1 정규화)

4. 회귀종류 : 다항식 회귀

5. 회규종류 : 푸아송 회귀


1. 편향오류(과소적합), 분산오류(과적합)

모형이 편향적 즉 과하게 단순해서 발생하는 오류

2) 분산오류(variance error) : 과적합 오류(overfitting error)

모형이 과하게 복잡하여 발생하는 오류.

매개변수 최적화의 어려움으로 표출

training sample 오류는 작지만, testing sample 오류는 큼.

* 토탈오류 = 편향오류 + 분산오류 + 상수

* testing sample 오류의 최소화 지향해야한다.

=> 모형의 복잡함에 있어서 최적점이 있다. 이 최적점을 찾아야 한다.

* 최적점을 찾은 모델링

2. Ridge 회귀 (L2 정규화)

- Ridge 회귀 개요

기존 회귀식의 학습은 오차제곱을 최소화하는 계수벡터를 구하는 것이었다.

하지만 Ridge회귀에서는 아래와 같은 손실함수를 최소화하는 계수벡터를 구하는 것이 목표이다.

- λ의 역할

하이퍼파라미터로서 튜닝해야 한다.

λ이 크면 클수록 분산오류(과적합)을 줄이며 편향오류(과소적합)을 증가시킨다.

- Ridge 회귀 목표

즉 과적합 상황이 의심될 때 과적합을 줄이기 위해 사용하는 것이다.

- Ridge 회귀식 설명

회귀계수의 절대값은 억제되지만 정확하게 0이 되지는 않는다.

λ이 크면 클수록 회귀계수(B)의 증가를 억제한다.

왜냐하면 L을 줄이고자 할테니 B는 최소화 되는 것이다.

- RIdge 회귀를 사용하면서 최적화

검정색박스처럼 Variance는 높고, Bias는 낮을때(과저합), Lasso회귀 사용

Lasso회귀 사용하면서, 회귀계수 값들이 낮아지면서 가벼운 모델로 학습한다.

3. Lasso 회귀 (L1 정규화)

- Lasso 회귀 개요

기존 회귀식의 학습은 오차제곱을 최소화하는 계수벡터를 구하는 것이었다.

하지만 Lasso회귀에서는 아래와 같은 손실함수를 최소화하는 계수벡터를 구하는 것이 목표이다.

- λ의 역할

하이퍼파라미터로서 튜닝해야 한다.

λ이 크면 클수록 편향오류(과소적합)의 증가가 분산오류(과적합)의 감소를 상쇄하고도 남을 수 있으니 주의해야 한다.

- Lasso 회귀 목표

Ridge 회귀와 마찬가지로 과적합 상황이 의심될 때 과적합을 줄이기 위해 사용하는 것이다.

- Lasso 회귀식 설명

회귀계수의 정확하게 0이 될 수 있다.

λ이 크면 클수록 회귀계수(B)의 증가를 억제한다.

왜냐하면 L을 줄이고자 할테니 B는 최소화 되는 것이다.

4. 다항식 회귀

- 다항식 회귀 개요

주의할 부분은 단 하나의 설명변수 X가 있다는 부분

5. 푸아송 회귀

- 푸아송 회귀 개요

종속변수 Y가 횟수를 나타내는 경우에 사용

- 푸아송 확률분포함수