Understanding mini-batch gradient descent
前言
再深入了解mini-batch
內容
Training with mini batch gradient descent
- 雖然曲折,但整體來說還是下降。
Choosing your mini-batch size
- 從圖中的路徑來比較出Batch,Mini-Batch,Stochastic在進行收斂時的差異。
- Batch gradient descent
- 是對全部樣本都訓練完才產生損失值,路徑平滑
- Stochastic gradient descent
- 是單一樣本都訓練完就產生損失值(但失去vectorization的功用,對整體的訓練效率太低),路徑曲折很大
- Mini-batch gradient descent
- 是一份樣本都訓練完就產生損失值,且用vectorization一次得到,訓練效果也表現不錯,路徑曲折適中。
- 是最佳的選擇。
- 通常樣本數大於2000就會用min-batch。
- 每一份樣本的數量的選擇都是2的次方。
Mini-batch gradient descent
- mini-batch的程式碼流程。
該學到的
- 各種樣本數量選擇的比較。
- 如何決定什麼時候使用Mini-batch,數量的選擇。
- 程式實作。