Speech recognition
前言
之前學到的有"生成句子","語言翻譯",這些都是靠RNN模型進行處理,但是這些語言都是以文字出現,但是否可以語音來生成文字呢?
內容
Speech recognition problem
- 將語音轉成三維數據(time時間,frequency頻率,energy能量)。
- 再將這些數據透過RNN模型轉成文字。
- 一般來說,300小時的語音數據就可以訓練出很好的模型。當然也有人用到3000h甚至10000h的數據。
Attention model for speech recognition
- 可以利用Attention model來實現語音識別。
- 每個x可以都是語音的三維數據,再透過Attention weight進行組合後,生成context,然後傳到decoder進行識別。
CTC cost for speech recognition
- 除了Attention model另外一種做speech recognition的方式。
- 假設有10秒語音,可能產生出1000筆的語音數據。
- 利用基本的RNN的模型,輸出相同1000筆的output。
- 遇到重複的字母,就消除合併成同一個。
- 遇到blank,就消除。
- 與到space,就保留。
- 透過上述規則把1000的output,轉成我們需要的文字。
該學到的
- 如何透過Attention model和CTC cost來分別實現語音識別功能。