Powered by GitBook

Weight Initialization for Deep Networks

前言

上一節提到的Vanishing / Exploding gradients的解決方式，就是對參數做適當的初始化，要如何做呢?

內容

Single neuron example

解決方式：讓每一層的w不要比1大太多，也不要比1小太多，都在1的附近。

理論上，還是應該無法完全解決Vanishing / Exploding gradients，但可以減緩這樣的情況的發生(除非深度又更深)。

尋找w和n的關係

利用圖中的公式來對參數做適當的初始化，讓每層的參數的初始值都在1的附近。

該學到的

如何做參數初始化

results matching ""

No results matching ""