본문 바로가기

ML, DL/머신러닝

머신러닝 기초

[기계학습 문제 해결 순서]

1. 해결 할 일(task) 에 대해 input, ouput 이 무엇인지 분석한다.

- 회귀인지, 분류인지

- 라벨링이 되어있는지, 아닌지

 

2. 데이터를 이해한다 (EDA)

- Missing value 채움, Outlier 제거

- 데이터 분포 및 값을 검토

- 모델링 시 주의점 파악

- 모델 선택 가설 수립


3. Train, Test 데이터를 대표성을 띄도록 임의로 나누고, metric 을 정의한다.

*Validation set 이 필요한 이유 : 학습 중간 과정에 Model 성능 평가 가능, 모델링 진행자를 위해 존재

 

4. 피처엔지니어링과 모델링을 한다

- 피처엔지니어링 : 데이터 도메인 지긱을 활용하여 데이터 Feature 를 추가로 만들어 주는 과정

                              (고도화된 DL 에서는 생략되는 경우 있음)

 

5. loss function 을 정의한다.

6. optimization 기법을 선택한다.

7. 모델 학습을 하고, 성능을 평가한다.

- Underfit : 일반적으로 모델의 크기를 키운다

- Overfit : 일반적으로 모델의 크기를 줄인다

*Overfit 방지 방법 :

- Train Data 를 더 모은다 (augmentation 을 사용한다)

- 피처의 개수를 줄여본다. (data 가 sparse 해지는 것을 (띄엄띄엄) 방지)

- Regularization (정형화)를 한다.

 

8. 1~7을 반복

 

[경험적 위험도와 일반화]