[기계학습 문제 해결 순서]
1. 해결 할 일(task) 에 대해 input, ouput 이 무엇인지 분석한다.
- 회귀인지, 분류인지
- 라벨링이 되어있는지, 아닌지
2. 데이터를 이해한다 (EDA)
- Missing value 채움, Outlier 제거
- 데이터 분포 및 값을 검토
- 모델링 시 주의점 파악
- 모델 선택 가설 수립
3. Train, Test 데이터를 대표성을 띄도록 임의로 나누고, metric 을 정의한다.
*Validation set 이 필요한 이유 : 학습 중간 과정에 Model 성능 평가 가능, 모델링 진행자를 위해 존재
4. 피처엔지니어링과 모델링을 한다
- 피처엔지니어링 : 데이터 도메인 지긱을 활용하여 데이터 Feature 를 추가로 만들어 주는 과정
(고도화된 DL 에서는 생략되는 경우 있음)
5. loss function 을 정의한다.
6. optimization 기법을 선택한다.
7. 모델 학습을 하고, 성능을 평가한다.
- Underfit : 일반적으로 모델의 크기를 키운다
- Overfit : 일반적으로 모델의 크기를 줄인다
*Overfit 방지 방법 :
- Train Data 를 더 모은다 (augmentation 을 사용한다)
- 피처의 개수를 줄여본다. (data 가 sparse 해지는 것을 (띄엄띄엄) 방지)
- Regularization (정형화)를 한다.
8. 1~7을 반복
[경험적 위험도와 일반화]
'ML, DL > 머신러닝' 카테고리의 다른 글
소프트맥스 회귀(Softmax Regression) (0) | 2022.06.12 |
---|---|
다중 선형 회귀 행렬 연산으로 이해하기 (0) | 2022.06.12 |
로지스틱 회귀(Logistic Regression) (0) | 2022.06.12 |
머신 러닝 모델 평가, Sample/Feature (0) | 2022.06.12 |