DL : 비선형 함수를 활용
affine transform : 선형으로 변형
activation function : 비선형을 활용
(... 추가 작성 필요 ...)
[왜 Feedforward network 는 충분히 잘될 까]
1989,시벤코 정리 (universal approximation theorem)
-> 하나 이상의 hidden layer 를 갖는 인공신경만은 임의의 연속인 다변수 함수 f를 원하는 정도로 근사 할 수 있다!
-> 그러나 w1,w2..wn, bias, active func 이 잘못되거나 hidden layer neuron 수가 부족하다면 근사하는데 실패 할 수 있으며, 얼마나 큰 네트워크여야 하는지는 모른다
-> 모델 크기, hyper parameter 를 잘 조절해야 한다
-> 일반적으로 exp(dimension) 만큼 있어야 잘 근사한다
-> 즉 근사하고자 하는 차원이 클 수록 매우 많은 hidden layer 가 필요하다!
(CNN 과 같이 shared weight 를 갖는 모델이 MLP 에 비해 컴퓨팅 파워가 적을 때 효과를 보는 이유이기도 하다)
'ML, DL > 딥러닝 기초' 카테고리의 다른 글
OOD (out of distribution detection) (1) | 2022.10.08 |
---|---|
검색 키워드 정리 (0) | 2022.10.08 |
GPGPU,CUDA, cuDNN (1) | 2022.10.08 |
Batch norm, layer norm, instance norm, group norm (0) | 2022.08.09 |