Attention Model Intuition
前言
Attention Model可以幫助我們解決怎樣的問題呢?
內容
The problem of long sequences
人類跟機器在翻譯長句的區別:
在Encoder-Decoder的架構下,機器是一口氣讀完長句後,才開始進行翻譯,然而從人類的翻譯方式,是每次讀完長句中的某個部份,先翻譯部分,在進行下部份的翻譯。
Bleu score表格來觀察機器在翻譯句子長短的表現,在長句(超過20個單字時)翻譯時,Bleu score會開始下降,太短表現好像也不是很好(小於10個單字)。
一次翻譯10~20個單字似乎效果會比較好,但我們又需要一次讓模型先讀取整句話,所以需要Attention Model讓模型專注某部分的單字進行翻譯。
Attention model intuition
第一步: 利用bidirectional RNN,先依序從左到右把法語讀完,再從右到左讀過一次,生成每次的y^都會參考前後的單字的情況,也就是模型已經讀過一遍法語。
第二步: 關注合適的長度進行翻譯,每次Decoder進行翻譯時,會根據y^的數量(10~20)以及Attention Weight生成的context。
該學到的
- Attention Model的基礎架構。