Vanishing / Exploding gradients

前言

什麼是Vanishing / Exploding gradients ?

內容

  • Vanishing/exploding gradients

  • 如果初始參數沒有設定適當,在很深的模型中,就很容易產生Vanishing / Exploding gradients。
  • 很深的模型的每一層weight,經過正向或反向傳播時,會產生指數效應
    • 如果weight > 1,輸出預測值,可能就會產生Exploding gradient。
    • 反向傳播時,指數效應會在weights的更新幅度產生爆炸或消失。
  • 梯度爆炸
    • 很難再降低loss。
  • 梯度消失
    • 更新幅度變慢,學習變慢。

該學到的

  • Vanishing / Exploding gradients是如何產生的。

results matching ""

    No results matching ""