Vanishing gradients with RNNs
前言
當RNN面臨到Vanishing gradient會出現哪些問題。
內容
Vanishing gradients with RNNs
- 其實只要NN有很多層就會遇到vanishing gradients的問題。
- vanishing gradients,就是會造成最前面的幾層的weight無法進行有效的學習和更新。
- cat/cats和was/were是對應的。
- 也就是第二個單字會決定倒數第二個單字的型態。
- 但RNN模型,由於這兩個單字距離太遠,存在vanishing gradients的問題,模型會忽略這兩者間的關係。
- 模型要如何克服這樣的長距離的關係。
- 如何處理Exploding gradients
- Exploding gradients會造成parameter過大,出現NaN。
- 進行gradient clipping,當值過大時,就強制讓他變小。
該學到的
如何解釋Vanishing gradients with RNNs。
如何處理Exploding gradients。