Weight Initialization for Deep Networks
前言
上一節提到的Vanishing / Exploding gradients的解決方式,就是對參數做適當的初始化,要如何做呢?
內容
Single neuron example
- 解決方式:讓每一層的w不要比1大太多,也不要比1小太多,都在1的附近。
- 理論上,還是應該無法完全解決Vanishing / Exploding gradients,但可以減緩這樣的情況的發生(除非深度又更深)。
- 尋找w和n的關係
- 利用圖中的公式來對參數做適當的初始化,讓每層的參數的初始值都在1的附近。
該學到的
- 如何做參數初始化