욱이의 냉철한 공부

[딥러닝 기본] Setting up your ML application 본문

데이터과학/개념 : Deep Learning

[딥러닝 기본] Setting up your ML application

냉철한 욱 2022. 3. 28. 07:06

* 출저

본 개념정리는 제 담당교수님이신 연세대학교 정보대학원 김하영 교수님 수업과 Andrew 교수님의 Coursera 수업을 통해 얻은 정보를 통해 정리했습니다. 자료는 Andrew 교수님의 Coursera 수업자료입니다.

 


 

 

 

1.  train, dev(validaton), test

1)  데이터 양에 따른 train, dev(validaton), test 특징

- 스몰데이터일 경우(데이터 양이 100, 1000, 10,000)

train : 70%, test : 30%

train : 60%, dev : 20%, test : 20%

 

 

- 빅데이터일 경우(데이터 양이 1,000,000 이상일 경우)

 

train : 98%, dev : 1%, test : 1%

 

* 검증데이터는 임계치에 맞게 어느 정도 값만 쓰면 된다.

 

2) train, dev(validaton), test 주의할 점

- 데이터 분포 동일한지 파악

- 데이터 test는 꼭 있어야 한다.

 

 

2. Bias, Variance

1) 딥러닝 Bias, Variance 특징

머신러닝은 bias, variance 상충해서 조절해야 하는 경우 많지만 딥러닝은 그런 경우 별로 없다.

딥러닝은 bias, variance 어느 한쪽에 영향을 주지 않으면서 조절 가능하다.

2) Bais, Variance 사례

train 1%오차, dev 11% 오차 -> high variance : 과적합 예상

train 15% 오차, dev 16% 오차 -> high bias

train 15% 오차, dev 30% 오차 -> high bias, high variance

train 0.5% 오차, dev 1% 오차 -> low bias, low variance

* 해석

Bias가 높다 -> train에서 성능 좋지 않다.

variance가 높다 -> train하고 dev 격차가 크다.

 

 

 

 

 

3. Basic Recipe for Machine Learning

* bayes error

최소한의 오차이다.

ex) 가위, 바위, 보 최소 1/33은 오차가 있을 것 생각할 수 있다.