Weight Initialization for Deep Networks

前言

上一節提到的Vanishing / Exploding gradients的解決方式,就是對參數做適當的初始化,要如何做呢?

內容

  • Single neuron example

  • 解決方式:讓每一層的w不要比1大太多,也不要比1小太多,都在1的附近。
    • 理論上,還是應該無法完全解決Vanishing / Exploding gradients,但可以減緩這樣的情況的發生(除非深度又更深)。
  • 尋找w和n的關係
    • 利用圖中的公式來對參數做適當的初始化,讓每層的參數的初始值都在1的附近。

該學到的

  • 如何做參數初始化

results matching ""

    No results matching ""