본문 바로가기

ML, DL/머신러닝

머신 러닝 모델 평가, Sample/Feature

출처 : https://wikidocs.net/32012

 

02) 머신 러닝 훑어보기

머신 러닝의 특징을 이해하고, 주요 용어에 미리 친숙해져봅시다. ## 1. 머신 러닝 모델의 평가** ![](https://wikidocs.net/images/page ...

wikidocs.net

 

1. 머신 러닝 모델의 평가**

- 검증용 데이터 :  모델의 성능을 평가하기 위한 용도가 아니라 모델의 성능을 조정하기 위한 용. 더 정확히는 모델이 훈련 데이터에 과적합(overfitting) 이 되고 있는지 판단하거나 하이퍼파라미터의 조정을 위한 용도입니다. 훈련용 데이터로 훈련을 모두 시킨 모델은 검증용 데이터를 사용하여 정확도를 검증하며 하이퍼파라미터를 튜닝(tuning) 합니다. 검증용 데이터에 대해서 높은 정확도를 얻도록 하이퍼파라미터의 값을 바꿔보는 것입니다. 이렇게 튜닝하는 과정에서 모델은 검증용 데이터의 정확도를 높이는 방향으로 점차적으로 수정됩니다.튜닝 과정을 모두 끝내고 모델의 최종 평가를 하고자 한다면, 이제 검증용 데이터로 모델을 평가하는 것은 적합하지 않습니다. 모델은 검증용 데이터의 정확도를 높이기 위해서 수정되어져 온 모델이기 때문입니다. 모델에 대한 평가는 이제 모델이 한 번도 보지 못한 데이터인 테스트 데이터의 몫입니다. 수학능력시험을 준비하는 수험생으로 비유하자면 훈련 데이터는 실제 공부를 위한 문제지, 검증 데이터는 모의고사, 테스트 데이터는 실력을 최종적으로 평가하는 수능 시험이라고 볼 수 있습니다.

 

  • 하이퍼파라미터(초매개변수) : 모델의 성능에 영향을 주는 사람이 값을 지정하는 변수. (ex :learning rate, 뉴런 수/층)

 

2. 샘플(Sample)과 특성(Feature)**

이때 머신 러닝에서는 하나의 데이터. 행렬 관점에서는 하나의 행을 샘플(Sample)이라고 부릅니다. (데이터베이스에서 레코드라고 부르는 단위입니다.) 그리고 종속 변수 y를 예측하기 위한 각각의 독립 변수 x를 특성(Feature)이라고 부릅니다. 행렬 관점에서는 각 열에 해당됩니다.