Gradient descent with momentum

前言

什麼是momentum?

內容

  • Gradient descent example

  • Momentum = Gradient descent + Exponentially weighted averages
  • 比標準的Gradient descent表現更好。
  • 解決了Mini-batch Gradient descent的運動狀態中矛盾。
    • 若learning rate太大,學習快,但縱軸的偏幅會變大。
    • 若learning rate太小,學習慢,但縱軸的偏幅會較穩定。
  • 利用Exponentially weighted averages降低縱軸的偏幅,因此earning rate可以設置比較大。
  • Implementation details

  • 利用新加權平均的Gradient descent公式來更新Vdw,Vdb。
  • 再利用Vdw,Vdb來更新W,b。

該學到的

  • Momentum為什麼表現得比一般Gradient descent更好 ?

results matching ""

    No results matching ""