Chapter 1 - 개요

- 대부분 데이터는 본질적으로 확률에 의한 프로세스이며, 관찰되지 못한 원인이 포함되기 때문에 noise 를 포함함

- Noise 가 포함된 데이터로부터 실제 모델(확률분포) 를 얻어내기는 어려운 과정이며, 다음 2가지 이론을 활용

.Probablity theory : 불확실성을 정량화하여 표현 할 수 있는 수학적 프레임워크를 제공

.Decision theory : 확률적 표현을 바탕으로 적절한 기준에 따라 최적의 예측을 수행하는 방법론 제공

- Machine learning 시에 Polynomial 로 근사 모델 사용 (테일러 급수 형태의 함수 근사 사용)

*테일러 급수는 M 값 (차수) 가 높아질수록 "특정 위치" 에서 다 잘맞음. 하지만 overfitting 됨 (extrapolation 오차 커짐)

*M 값이 너무 작으면 Underfitting

- 학습을 진행할 수록 loss 값은 계속 작아짐

- M 값이 매우 높을 때 polynomial 의 계수 (weight) 를 보면 매우 크거나 매우 작아서 weight 값들의 편차가 매우 커지는 현상을 보임 (오차를 줄이기 위해 w 값을 극단적으로 보정) (항상 그렇지는 않음)

- error function (loss function) 은 MSE 를 사용하여 미분 시 유일해를 가짐 (gradient descent 사용 용이)

-데이터가 많을 수록 높은 차수의 모델을 사용해도 Overfitting 이 적어짐

- 휴리스틱 관점에서는 model param 개수가 sample 크기의 0.2~0.1 배수 정도가 적절

- 데이터가 적은데 높은 차수의 param model 을 쓰고 싶다면 regularization 기법 사용 (= weight decay) (ex:Lasso,Ridge)

기억 저장소