욱이의 냉철한 공부

[통계모델링] 로지스틱회귀분석 본문

데이터과학/개념 : Statistics

[통계모델링] 로지스틱회귀분석

냉철한 욱 2020. 4. 19. 16:27

* 자료출저 및 참고강의

명지대 산업경영공학과 데이터마이닝 김도현 교수님 강의

패스트캠퍼스 올인원 패키지(금융공학/퀀트) 장순용 강사님 인터넷 강의

 


 

* 목차

로지스틱회귀분석

1. 로지스틱회귀분석 개요

2. 로지스틱회귀분석 원리

3. 로지스틱회귀분석 학습

4, 로지스틱회귀분석 예측

5. 로지스틱회귀모형 해석

6. 로지스틱회귀모형과 선형회귀모형 차이


1. 로지스틱회귀분석 개요

- 로지스틱회귀분석은 어디에 속하는가?

* 통계에측모형

1) 수치예측 : 평가방법 : MSE, MAE, RMSE

2) 분류예측 : 평가방법 : Accuracy(정확도), Precision(정밀도), Recall(재현율, 민감도)

=> 로지스틱회귀모형은 분류예측이다.

- 로지스틱회귀분석을 하는 목적

기존 선형회귀분석은 연속형 종속변수와 독립변수간 직선관계를 가정하고, 이들 간의 수학적 관계를 밝힘.

그런데 종속변수가 특정, 두 가지 값만 갖는 경우(범주형)에 선형회귀분석이 가능한 것일까?

그리하여 이러한 문제를 해결하기위해 로지스틱히귀분석이 등장하였다.

ex) 대학합격여부, 암 재발여부, 상품구매여부, 보험가입여부 등

* 만약에 종속변수가 두 가지 값만 갖는 경우 선형회귀모델을 적용하면 문제 발생

1) 잘 적합하지 않는 선형회귀의 추정식이 도출된다.

2) Y 추정값이 0보다 작거나 1보다 큰 값을 가질 수 있는 문제가 생긴다.

- 선형회귀의 문제점을 해결하는 로지스틱회귀

위와 같은 문제가 발생하는 이유는 반응변수의 특성을 무시했기 때문이다.

그리하여 우리는 해결해야 한다.

선형회귀모형시, 반응변수의 특징을 고려해야 하며

예측확률이 설명변수의 값의 증감에 따라 증감하고, 01사이의 값을 갖는 확률값으로 전환해야 한다.

2. 로지스틱회귀분석 원리

- 로지스틱회귀분석 핵심

로지스틱회귀는 대표적인 분류예측 방법

한 개 이상(K개)의 독립변수가 있음. ex) X1, X2, X3 .... Xk

한 개의 종속변수(Y)가 있음. ex) Y(값은 0(FASLE), 1(TRUE)로 국한)

종속변수의 값은 0 또는 1 : 이분법적인 상황을 모델링

종속변수의 값은 조건부확률를 통해 계산하여 예측

- 로지스틱회귀분석 식

1)

독립변수(Xi)를 선형조합하여 S변수(logit) 만듬.

2)

종속변수 Y의 값이 1이 될 조건부확률(𝑃(𝑌 = 1| 𝑥𝑖 ))은

"로짓함수"(Sigmoid함수)를 사용하여 계산

-> 얕은신경망으로 생각하면 이것이 바로 "활성화함수"(activation function)

3. 로지스틱회귀분석 학습

- 학습

최적의 파라미트 B의 계수들을 원할한 학습을 통해서 도출

- 학습방법

학습은 로그우드 L (손실함수)를 최소화하는 방법으로 할 수 있음

이를 통해 B계수들의 값을 도출

1) L을 미분하여 gradient 도출

이 gradient값의 방향으로 gradient 값만큼 계속 이동하여 최적값을 찾는다.

2) 감소율 최고인 −𝛻𝐿로 계속 이동

1. B의 값은 초기화

2. gradient 𝛻𝐿를 계산

3. B - 𝜂𝛻𝐿를 계산함으로써 갱신(𝜂(학습률)은 하이퍼파라미터, 학습속도조절)

4. 다시 gradient 𝛻𝐿를 계산

4. 로지스틱회귀분석 예측

학습된 최적의 로지스틱회귀식이 만들어져있고,

독립변수의 값이 새롭게 주어졌을 때, 모르는 상태인 종속변수의 값 y'를 계산을 통해 알아냄.

이 계산은 조건부확률을 통해 계산되어짐.

 

조건부확률(𝑃(𝑌 = 1| 𝑥𝑖 )) > 기준확률(보통 0.5)

(if 조건부확률(𝑃(𝑌 = 1| 𝑥𝑖 )) > 0.5 then 1 else 0 end)

5. 로지스틱회귀모형 해석

- 로지스틱회귀모형 개요

"로짓함수"(Sigmoid함수)를 "선형관계"(로지스틱회귀모형)으로 변환

"로짓함수"(Sigmoid함수)는 선형회귀모형을 S자형 회귀모형으로 변형한 것

"로짓함수"(Sigmoid함수)에서 𝑃(𝑌 = 1)를 변환하여, 선형관계로도 만들 수 있음.

그것이 로지스틱회귀모형

- 로지스틱회귀모형 용어

1) 승산(Odds) = 성공확률 / 실패확률,

0 < odds < 무한

1) odds = 1 이면, 성공확률과 실패확률이 같다.

2) odds != 1 이면, 성공확률과 실패확률 다름.

2) 로짓(logit)

3) 로지스틱회귀모형 식

로짓을 종속변수로 정의하고, 로짓과 q개의 독립변수와의 관계를 선형함수로 모형화.

- 예시) 단일독립변수

- 예시) 다중독립변수

- 예시) 회귀계수, 승산비 차이

- 예시) 승산, 승산비 차이

6. 로지스틱회귀모형과 선형회귀모형 차이

- 유사점

선형회귀모형의 회귀계수가 로지스틱회귀모형에서는 로짓회귀계수

모형설명력 : Pseudo R2 (종속변수와 독립변수들간의 관계의 강도)

- 차이점

로지스틱회귀모형은 종속변수와 독립변수간의 선형성을 가정하지 않음.

오차에 대한 정규분포 가정 필요없음.

등분산 가정 필요없음

로지스틱회귀모형의 가정 : 관측치들의 독립성, 선형성 가정(설명변수와 Logit이 선형관계)