욱이의 냉철한 공부

[통계모델링] 데이터마이닝 모델링 개요 본문

데이터과학/개념 : Statistics

[통계모델링] 데이터마이닝 모델링 개요

냉철한 욱 2020. 4. 19. 16:22

* 자료출저 및 참고강의

명지대 산업경영공학과 데이터마이닝 김도현 교수님 강의


 

* 목차

데이터마이닝 모델링 개요

1. 통계와 데이터마이닝 차이

2. 데이터마이닝 모델링

3. 데이터마이닝 모델링 종류

4. 데이터마이닝 모델링 분류

5. 데이터마이닝 변수 종류

6. 데이터마이닝 모델링 과적합

7. 머신러닝에서의 성능평가 개요


1. 통계와 데이터마이닝 차이

- 전통적인 통계

1) 모집단이 있고, 이를 추론하기 위해서 샘플링을 수행

2) 현실에 적용하기 힘든 가정(Assumption)

=> 모집단의 정규분포, 선형성, 등분산성 등

3) 제안된 가설에 대한 검증이 목적

- 데이터마이닝

1) 모집단을 가지고 있고, 그 안에 숨겨진 패턴과 규칙을 찾는 것이 목적

2) 데이터에 대한 가정이 없음

3) 즉 샘플링에 의미가 없음

4) 비선형성에 기반을 둔 알고리즘

5) 미래 예측이 주된 목적이다.

- '통계'를 왜 공부하냐?

데이터마이닝 모델링 기법들 중에 '통계'를 기반으로 구축된 모델링이 많다.

더불어 '최적화'를 위해 '통계'를 기반으로 하는 기법을 쓰는 모델링이 많다.

대표적인 "선형회귀"부터 "딥러닝"까지.

2. 데이터마이닝 모델링

- 다양한 모델링 기법 존재 이유

1) 각 기법들이 나름대로의 장, 단점, 목적을 지니고 있음

2) 기법의 유용성은 데이터 크기, 데이터 형태, 데이터에 존재하는 패턴의 유형, 기법이 요구하는 기본 가정 충족 여부, 데이터 잡음 정도, 특수한 분석목적 등 다양한 요인들에 의해 영향을 받음.

- 모델링에서의 용어 정리

1) 알고리즘 (algorithm)

특정 데이터마이닝 모델링 기법, 예를 들어 분류나무, 판별분석 등을 실행하기 위해 사용되는 특정 절차

2) 변수 (variable)

입력변수(X)와 출력변수(Y)를 모두 포함하는 레코드의 측정치를 말함

3) 독립변수 (independent variable)

보통 X로 표기되며, 속성(attribute), 특성(feature), 예측변수(predictor), 입력변수(input variable)

또는 DB관점에서는 필드(field)라고 함.

4) 종속변수 (dependent variable)

보통 Y로 표기되며, 지도학습으로 예측되는 변수, 반응변수(response variable), 출력변수(output variable), 목표변수, 또는 성과변수라고도 함.

5) 관측치 (observation)

고객, 거래 등의 측정치를 갖는 분석의 단위로서 사례(case), 레코드(record), 패턴, 또는 행(row)이라고도 함

(각 행은 레코드를, 각 열은 변수를 의미함)

6) 차원 (dimension)

(독립)변수의 개수

3. 데이터마이닝 모델링 종류

- 모델링 종류

1) 지도학습(교사학습)

목표 : 하나의 종속변수를 예측하는 모델 개발

학습데이터 : 독립변수(x), 종속변수(y)가 주어짐

방법 : 예측과 분류

평가방법 : 실제값과 예측값의 차이로 모델을 평가

1-1) 지도학습(교사학습) : 예측

목표 : 수치형 종속변수를 예측하는 모델 개발, 독립변수와 종속변수의 관계 규명

평가방법 : 평균오차 = 실제값 - 예측값 의 평균

RMS = Root mean squared error = 평균제곱오차의 제곱근

1-2) 지도학습(교사학습) : 분류

목표 : 범주형 종속변수 예측하는 모델 개발, 독립변수와 종속변수의 관계 규명

2) 비지도학습(비교사학습)

목표 : 데이터 내의 연관성 규칙 탐색 및 유사한 관측치끼리 그룹핑 (군집화)

학습데이터 : 예측하거나 분류할 타깃(결과) 변수가 없음

종류 : 연관성 규칙, 군집화

2-1) 비지도학습(비교사학습) : 연관성 규칙

목표 : "무엇과 무엇이 어울리나"를 정의하는 법칙을 규명

즉 "유사성 분석"이라고도 함

예시 : "만약 X가 구매되면, Y 또한 구매된다. "

추천 시스템에 활용 - "우리 기록을 보니 당신은 X를 사셨군요, 그러면 당신은 Y도 좋아할 겁니다. "

아마존 추천시스템

2-2) 비지도학습(비교사학습) : 데이터 축소

목표 :

- 복잡한, 대량의 데이터를 보단 간단한/적은 데이터로 축소

  레코드/행의 수를 축소

  변수/열의 수를 축소

- 기존 변수들의 조합을 통해 새로운 변수 생성

- 실제적으로 관련이 있는 변수 선택 (Variable Selection)

종류 : 주성분 분석 (변수/열의 수를 축소)

군집화 (레코드/행의 수를 축소)

4. 데이터마이닝 모델링 분류

1) 지도학습 (교사학습)

1. Linear

- Linear Regression : 대표적 통계적 기반 모델링

- Logistic Regression : 대표적 통계적 기반 모델링

- Support Vector Machines

2. Tree

- Decision Tree

3. Ensamble

- Random Forest

- Bagging

- AdaBoost

- Gradient Boosting : GBDT

- Extra Trees Classifier

4. Neural Networks

- Perceptron

- Stochastic Gradient Descent

5. ETC

- KNN

- Gaussian Naive Bayes

- Gaussian Process Classifier

2) 비지도학습 (비교사학습)

1. Clustering

- K-means

- HCA

- Expectation Maximization

2. Visualization and dimensionality reduction:

- Principal Component Analysis(PCA)

- Kernel PCA

- Locally -Linear Embedding (LLE)

- t-distributed Stochastic NeighborEmbedding (t-SNE)

3. Association rule learning

- Apriori

- Eclat

3) 준지도학습

4) 강화학습

1. Q-learning

5. 데이터마이닝 변수 종류

1) 범주형 변수

대부분의 다른 알고리즘에서는 이진더미를 만들어야 함 (더미의 수 = 범주의 수 - 1)

'학생', '무직', '취직', '은퇴' 값을 갖는 변수의 경우, 3개의 더미변수 사용 (학생, 취직, 은퇴0

(변수 매우 많아져요~)

- 명목변수(nominal variable) : 순위가 없는 경우 (남성, 여성)

- 서수변수(ordinal variable) : 순위가 있는 경우 (낮음, 중간, 높음)

2) 수치형 변수

대부분의 분석에서는 수치형 변수 그대로 활용

- 연속형

- 정수형

6. 과적합

- 개요

통계적 모델은 변수들 사이의 관계에 대해 고도로 복잡한 설명을 만들 수 있음

이것은 매우 적합한 설명력 높은 모델링을 만들 수 있음.

하지만 새로운 데이터가 사용될 때, 고도로 복잡한 모델은 잘 맞지 않을 수 있음

 

- 원인

너무 많은 예측변수들

너무 많은 파라키터들을 가진 복잡한 모델

 

- 결과

생성된 모델이 신규 데이터에 대해서 제대로 적용되지가 않음.

 

- 해결방법

문제 : 모델이 새로운 데이터에 얼마나 잘 돌아갈 것인가?

해법 : 데이터를 두 부분으로 나눔 (데이터 분할)

           학습 부분은 모델을 학습 및 개발

           검증 부분은 모델을 시행하고 "새로운" 데이터에서 성능 평가.