Understanding mini-batch gradient descent

前言

再深入了解mini-batch

內容

  • Training with mini batch gradient descent

  • 雖然曲折,但整體來說還是下降。
  • Choosing your mini-batch size

  • 從圖中的路徑來比較出Batch,Mini-Batch,Stochastic在進行收斂時的差異。
  • Batch gradient descent
    • 是對全部樣本都訓練完才產生損失值,路徑平滑
  • Stochastic gradient descent
    • 是單一樣本都訓練完就產生損失值(但失去vectorization的功用,對整體的訓練效率太低),路徑曲折很大
  • Mini-batch gradient descent
    • 是一份樣本都訓練完就產生損失值,且用vectorization一次得到,訓練效果也表現不錯,路徑曲折適中。
    • 是最佳的選擇。

  • 通常樣本數大於2000就會用min-batch。
  • 每一份樣本的數量的選擇都是2的次方。
  • Mini-batch gradient descent

  • mini-batch的程式碼流程。

該學到的

  • 各種樣本數量選擇的比較。
  • 如何決定什麼時候使用Mini-batch,數量的選擇。
  • 程式實作。

results matching ""

    No results matching ""