Vanishing / Exploding gradients
前言
什麼是Vanishing / Exploding gradients ?
內容
Vanishing/exploding gradients
- 如果初始參數沒有設定適當,在很深的模型中,就很容易產生Vanishing / Exploding gradients。
- 很深的模型的每一層weight,經過正向或反向傳播時,會產生指數效應。
- 如果weight > 1,輸出預測值,可能就會產生Exploding gradient。
- 反向傳播時,指數效應會在weights的更新幅度產生爆炸或消失。
- 梯度爆炸
- 很難再降低loss。
- 梯度消失
- 更新幅度變慢,學習變慢。
該學到的
- Vanishing / Exploding gradients是如何產生的。