욱이의 냉철한 공부

[통계모델링] 선형회귀분석 : 개요, 해 도출 본문

데이터과학/개념 : Statistics

[통계모델링] 선형회귀분석 : 개요, 해 도출

냉철한 욱 2020. 4. 19. 16:13

* 자료출저 및 참고강의

명지대 산업경영공학과 데이터마이닝 김도현 교수님 강의

패스트캠퍼스 올인원 패키지(금융공학/퀀트) 장순용 강사님 인터넷 강의


* 목차

통계모델링

1. 선형회귀분석 개요

2. 선형회귀식 원리

3. 선형회귀식 해(OLS (Ordinary Least Squares soluntion))


1. 선형회귀분석 개요

- 회귀분석 정의

연구대상이 되는 시스템에 존재하는 변수들 사이의 함수적인 관계를 규명하기 위해 수학적인 모형을 상정하고, 이 모형을 수집된 자료로부터 추정하는통계적 기법.

- 회귀분석 개요

선형회귀는 대표적인 수치예측기법

한 개 이상의 독립변수(설명변수)가 있음

한 개의 종속변수

선형 관계를 전제

이외에도 여러가지 전제조건 있음. :잔차(오차)에 대한 가설 검정 필요

- '회귀'라는 말 유래

영국의 유전학자 갈튼(Galton)

아버지와 아들의 키의 관계에 대한 연구에서 유래

ex) 아들의 키는 또래의 평균키로 회귀하려는 경향이 있음.

- 회귀분석의 목적

1. 변수간의 관계를 기술하고 설명

ex) 아파트 평수와 전기소모량의 관계

2. 예측 (prediction)

ex) 아파트 평수에 따른 전기소모량 예측

- 회귀분석 : 설명모델

목표: 예측변수(설명변수, 독립변수, 회귀변수)와 목표변수(종속변수, 타깃변수, 반응변수)사이의 관계 설명

모델목표: 데이터를 잘 적합하고 모델에 대한 설명변수들의 기여 정도를 이해

데이터 분석에서 회귀분석을 사용하는데 많이 쓰임

적합도 검증 : R2, 잔차분석

- 회귀분석 : 예측모델

목표: 예측변수 값은 있지만, 목표변수의 값이 없는 경우 다른 데이터로부터 목표변수의 값을 예측

모델목표: 예측 정확성 최적화

전통적 데이터마이닝 맥락

학습데이터에서 학습모델 생성후, 테스트 데이터에서 성능 평가.

예측변수의 설명변수로서의 역할이 주요한 목적이 아님.

- 회귀분석 : 평가(수치예측)

2. 선형회귀식 원리

1) 종속변수 : Y

예측의 대상

2) 독립변수 : X1, X2 ~ Xk

데이터로 값이 주어짐

3) 계수 : B0, B1 ~ Bk

학습을 통해서 밝혀짐

즉 학습을 통해 데이터 속에서 패턴을 찾아 계수에 담아냄

4) 회귀계수

X변수가 △X만큼 변동한다면,

=> Y변수는 △Y만큼 반응한다.

B(i)는 다른 X변수는 그대로 있으면서

X(i)만 1 증가할 때의 △Y

5) 절편 : B0

B0은 베이스의 역할

ex) 변수, 회귀계수, 절편 예시

6) 오차변수 : ε

이것들은 가설 검정 필요함.

=> 오차(ε)에 대한 가정의 검토

독립성 : ε은 서로 독립

정규성 : ε가 정규분포를 따름

등분산성 : ε의 분산이 모두 동일

7) 다중공선성(Multicollinearity)

1. 공선성 정의

공선성은 피해야 한다.

독립변수들 간에 완전환 또는 거의 완전한 선형의 종속관계가 존재하는 것을 의미

ex) X1과 X2는 모두 Y에 영향을 준다.

그런데 X1과 X2사이에 강한 선형의 상관과계가 존재함

2. 공선성을 피해야 하는 이유

정확한 모수 추정 및 검정에 어려움이 있음.

회귀계수는 한 단위 증가할 때 종속변수의 변화량을 의미하는데,

두 독립변수간의 높은 상관과계가 존재할 경우 이에 대한 해석이 어려움

3. 선형회귀 해(OLS (Ordinary Least Squares soluntion))

- 선형대수적 접근 : Vector/Matrix 접근

- 선형대수적 접근 : 최소제곱법에 의한 추정

=> 오차값(L)이 최소가 되게 하도록 하는 계수값은 미분값이 0이 되게 하는 것과 같다.

b에 관련된 식이 어떻게 나왔는지? 아래 링크 확인

https://blog.naver.com/ehdsnck/221794423843

 

- 선형대수적 접근 : 예시 문제