욱이의 냉철한 공부

[선형대수학] 주성분 분석 본문

데이터과학/개념 : Math

[선형대수학] 주성분 분석

냉철한 욱 2020. 4. 16. 16:50

*

패스트캠퍼스 올인원 패키지(금융공학/퀀트) 장순용 강사님 인터넷 강의 정리.

명지대 산업경영공학과 김도현 교수님 데이터마이닝 강의 정리.

 

 


* 목차 : 주성분 분석

1) 주성분 분석 개요

2) 주성분 분석 예시

3) 선형대수학적 접근 - 고유값 분해와 주성분

4) 선형대수학적 접근 - 특이값 분해와 주성분

5) 선형대주학적 접근 - 고유값 분해와 특이값 분해의 관계


 

1) 주성분 분석 개요

- 주성분

축을 회전하여 새로운 변수(PC1, PC2)를 생성

선형 결합에 의해 새로운 변수(PC1, PC2)는 서로 비상관 관계

이 새로운 변수(PC1, PC2)를 주성분(Principal Component)로 불림

PC1과 PC2는 서로 직교.

- 주성분 분석

원변수(x1, x2)가 설명하는 분산을 가장 잘 설명해내는 새로운 변수(PC1, PC2)

새로운 변수(PC1, PC2)는 linear combination(가중합)을 통해 구하는 과정

원변수(x1, x2)들이 설명하는 총 분산/정보량 = 주성분(PC1, PC2)이 설명하는 총 분산

원변수(x1, x2)의 분산을 가장 많이 설명하는 변수를 제1주성분, 그 다음이 제2주성분, 제3주성분....

도출된 주성분은 서로 독립.

- 주성분 분석 최종산출물

원변수가 지닌 분산(정보)를 대부분 지닌 새로운 수치형 변수 생성

- 주성분 분석 목적

1. 기존 변수가 지닌 정보량의 손실없이 차원(변수 수)를 감소하기 위해 활용 (많은 정보를 담고있는 중요한 변수만 선택가능)

2. 변수간의 상관관계 제거 위해 활용 (다중공산성 제거)

3. 그 자체가 목적이라기보다 다른 방법(차후의 분석)을 위한 전처리 과정

2) 주성분 분석 예시 예제) 시리얼 데이터

=> 주성분 분석 전 원변수(X1, X2)

=> 주성분 분석 후 새로운 변수(PC1=Z1, PC2=Z2)

Z1 Z2는 두 개의 선형 결합(축 회전)

Z1이 가장 높은 변동성(분산) 지님

Z2Z1보다 낮은 변동성(분산) 지님

=> 주성분 분석 결과

=> 주성분 점수

=> 주성분 특성

 

 

3) 고유값 분해와 주성분

- 공분산행렬

X가 관측값인 행렬, 공분산 행렬은 M or S

- 예시) 공분산행렬

- 고유값 분해를 적용한 주성분

Q의 개개 컬럼이 서로 직교하는 주성분(PC1, PC2)

A의 대각선 원소는 개개 주성분의 분산에 해당

- 예시) 고유값 분해를 적용한 주성분

 

 

4) 특이값 분해와 주성분

X가 관측값인 행렬, 특이값 분해를 적용하면..

U의 개개 컬럼이 서로 직교하는 주성분(PC1, PC2)

시그마의 대각선 원소는 개개 주성분의 표준편차에 해당

 

5) 고유값 분해와 특이값 분해의 관계