Speech recognition

前言

之前學到的有"生成句子","語言翻譯",這些都是靠RNN模型進行處理,但是這些語言都是以文字出現,但是否可以語音來生成文字呢?

內容

  • Speech recognition problem

  • 將語音轉成三維數據(time時間,frequency頻率,energy能量)。
  • 再將這些數據透過RNN模型轉成文字。
  • 一般來說,300小時的語音數據就可以訓練出很好的模型。當然也有人用到3000h甚至10000h的數據。
  • Attention model for speech recognition

  • 可以利用Attention model來實現語音識別。
  • 每個x可以都是語音的三維數據,再透過Attention weight進行組合後,生成context,然後傳到decoder進行識別。
  • CTC cost for speech recognition

  • 除了Attention model另外一種做speech recognition的方式。
  • 假設有10秒語音,可能產生出1000筆的語音數據。
  • 利用基本的RNN的模型,輸出相同1000筆的output。
  • 遇到重複的字母,就消除合併成同一個。
  • 遇到blank,就消除。
  • 與到space,就保留。
  • 透過上述規則把1000的output,轉成我們需要的文字。

該學到的

  • 如何透過Attention model和CTC cost來分別實現語音識別功能。

results matching ""

    No results matching ""