Powered by GitBook

Speech recognition

前言

之前學到的有"生成句子"，"語言翻譯"，這些都是靠RNN模型進行處理，但是這些語言都是以文字出現，但是否可以語音來生成文字呢?

內容

Speech recognition problem

將語音轉成三維數據(time時間，frequency頻率，energy能量)。

再將這些數據透過RNN模型轉成文字。

一般來說，300小時的語音數據就可以訓練出很好的模型。當然也有人用到3000h甚至10000h的數據。

Attention model for speech recognition

可以利用Attention model來實現語音識別。

每個x可以都是語音的三維數據，再透過Attention weight進行組合後，生成context，然後傳到decoder進行識別。

CTC cost for speech recognition

除了Attention model另外一種做speech recognition的方式。

假設有10秒語音，可能產生出1000筆的語音數據。

利用基本的RNN的模型，輸出相同1000筆的output。

遇到重複的字母，就消除合併成同一個。

遇到blank，就消除。

與到space，就保留。

透過上述規則把1000的output，轉成我們需要的文字。

該學到的

如何透過Attention model和CTC cost來分別實現語音識別功能。

results matching ""

No results matching ""