Attention Model Intuition

前言

Attention Model可以幫助我們解決怎樣的問題呢?

內容

  • The problem of long sequences

  • 人類跟機器在翻譯長句的區別:

    在Encoder-Decoder的架構下,機器是一口氣讀完長句後,才開始進行翻譯,然而從人類的翻譯方式,是每次讀完長句中的某個部份,先翻譯部分,在進行下部份的翻譯。

  • Bleu score表格來觀察機器在翻譯句子長短的表現,在長句(超過20個單字時)翻譯時,Bleu score會開始下降,太短表現好像也不是很好(小於10個單字)。

  • 一次翻譯10~20個單字似乎效果會比較好,但我們又需要一次讓模型先讀取整句話,所以需要Attention Model讓模型專注某部分的單字進行翻譯。

  • Attention model intuition

  • 第一步: 利用bidirectional RNN,先依序從左到右把法語讀完,再從右到左讀過一次,生成每次的y^都會參考前後的單字的情況,也就是模型已經讀過一遍法語。

  • 第二步: 關注合適的長度進行翻譯,每次Decoder進行翻譯時,會根據y^的數量(10~20)以及Attention Weight生成的context。

該學到的

  • Attention Model的基礎架構。

results matching ""

    No results matching ""