vanishing gradient

· NLP
Recurrent Neural Networks (RNN) $$h_t = \tanh (W_{hh}h_{t-1} + W_{xh}x_{t})$$ Backpropagation Through Time (BPTT) 기존의 신경망 구조에서는 backpropagation 알고리즘을 이용한다. RNN에서는 이를 살짝 변형시킨 버전인 Backpropagation Through Time (BPTT) 을 사용하는데, 그 이유는 각 파라미터들이 네트워크의 매 시간 스텝마다 공유되기 때문이다. 즉, 각 시간 스텝의 출력단에서의 gradient는 현재 시간 스텝에서의 계산에만 의존하는 것이 아니라 이전 시간 스텝에도 의존한다. RNN 장단점 RNN 장점 어떤 길이의 입력이라도 처리할 수 있다. 긴 길이의 입력이 들어와도, 모델의 ..
oneonlee
'vanishing gradient' 태그의 글 목록