Why ResNets Work

前言

為什麼都是深層模型,ResNets比一般的深層模型來的有效?

內容

  • Why do ResNets Work ?

  • 一般模型 a[l] = g(z[l]),模型越深,w,b可能vanish到0,a[i+2]=0,繼續訓練下去,也很難更新參數。
  • ResNets a[l+2] = g(z[i+2]+a[l]),當w,b vanish到0時,由於多了一個input 本身,所以即使z[i+2]變為0,還有一個本身a[l]存在,因此進行反向傳遞時,仍可以讓模型學到東西。
  • ResNets的額外技巧,利用same padding,強迫讓z[i+2]和a[l]的shape保持一致,讓計算上保持簡易。
  • ResNets

  • 由於有pooling的存在,會導致w,h縮小,因此需要一個weight matrix,來提高a[l]的shape,讓shape保持一致。

該學到的

  • ResNets為何比深層模型來的有效。

results matching ""

    No results matching ""