Attention Model
前言
每個單字都有自己一個獨特Attention Weight,要如何算出這Attention Weight。
內容
Attention model
- encoder(bidirectional RNN): 將法語的句子讀完,再針對每個單字做處理,生成a(vector)。
- decoder: 會根據a,Attention Weight所生成的C,以及上一步的y,跟S做合併計算後,在進行softmax來產生新一步的y(新單字的翻譯)。
- c的公式: a和Attention Weight的乘積後相加。
- Attention Weight,在不同的a,是不同的值。
Computing Attention
- 每個a值都有獨有的Attention Weight。
- 所有Attention Weight相加為1。
- 構建一個小NN,依據s和a會計算出e。
- 再將每個e帶入公式,計算每個a值都有獨有的Attention Weight。
Attention examples
該學到的
- Attention Weight是如何被NN訓練學習的?