Why ResNets Work
前言
為什麼都是深層模型,ResNets比一般的深層模型來的有效?
內容
Why do ResNets Work ?
- 一般模型 a[l] = g(z[l]),模型越深,w,b可能vanish到0,a[i+2]=0,繼續訓練下去,也很難更新參數。
- ResNets a[l+2] = g(z[i+2]+a[l]),當w,b vanish到0時,由於多了一個input 本身,所以即使z[i+2]變為0,還有一個本身a[l]存在,因此進行反向傳遞時,仍可以讓模型學到東西。
- ResNets的額外技巧,利用same padding,強迫讓z[i+2]和a[l]的shape保持一致,讓計算上保持簡易。
ResNets
- 由於有pooling的存在,會導致w,h縮小,因此需要一個weight matrix,來提高a[l]的shape,讓shape保持一致。
該學到的
- ResNets為何比深層模型來的有效。