Gradient descent with momentum
前言
什麼是momentum?
內容
Gradient descent example
- Momentum = Gradient descent + Exponentially weighted averages
- 比標準的Gradient descent表現更好。
- 解決了Mini-batch Gradient descent的運動狀態中矛盾。
- 若learning rate太大,學習快,但縱軸的偏幅會變大。
- 若learning rate太小,學習慢,但縱軸的偏幅會較穩定。
- 利用Exponentially weighted averages降低縱軸的偏幅,因此earning rate可以設置比較大。
Implementation details
- 利用新加權平均的Gradient descent公式來更新Vdw,Vdb。
- 再利用Vdw,Vdb來更新W,b。
該學到的
- Momentum為什麼表現得比一般Gradient descent更好 ?