語音識別學習記錄 [kaldi中的openfst]

阿新 • • 發佈：2018-12-21

在Kaldi tutorial: Overview of the distribution中介紹了一個使用openfst的例子。先來介紹一下這個例子，再來說明FST(finite-state transducers,有限狀態機)如何應用到語音識別中。

首先有三個檔案，text.fst、isyms.txt、osyms.txt。

text.fst檔案的內容為（請無視前面的行號）：

0 1 a x .5 0 1 b y 1.5 1 2 c z 2.5 2 3.5 前三行是FST中的弧（arc），格式為[ 起點(src)，終點(dest)，輸入標籤(ilabel)，輸出標籤(olabel) ，權重(weight)]；弧在檔案中的順序可以交換，但是初始狀態的弧必須在第一行。最後一行為最終狀態的編號和最終狀態的權值。這個檔案描述的是FST的結構，根據這個檔案可以得到下圖：

從上圖可以看出字串ac到xz的轉換的權重為0.5+2.5+3.5=6.5.

關於這個圖的說明放一段openFst教程中的原話：The initial state is label 0. There can only be one initial state. The final state is 2 with final weight of 3.5. Any state with non-infinite final weight is a final state. There is an arc (or transition) from state 0 to 1 with input label a, output label x, and weight 0.5. This FST transduces, for instance, the string ac to xz with weight 6.5 (the sum of the arc and final weights). Note we have assumed the library default Weight type for this description.

isyms.txt檔案內容為：

<eps> 0 a 1 b 2 c 3 osyms.txt檔案內容為：

<eps> 0 x 1 y 2 z 3 isyms.txt和osyms.txt是輸入標籤和輸出標籤對應的符號。因為FST的輸入標籤和輸出標籤在內部都是用數字表示的，所以要有這麼兩個符號表。可以使用任意的非負整數作為符號的ID。那個為0的標籤ID是為epsilon標籤儲存的，epsilon是一個空字串。上面的例子中並沒有用到epsilon這個標籤，openFST的教程上面說以後會用到，具體幹什麼我也還不清楚。

以上內容主要來自openFst官網的FstQuickTour。

語音識別學習記錄 [kaldi中的openfst]

語音識別學習記錄 [kaldi中的openfst]

語音識別學習記錄

語音識別學習資料入門整理

CSS基礎學習記錄——CSS中哪些屬性可以繼承？

語音識別學習筆記（三）【動態時間歸正的識別技術】

語音識別學習筆記（二）【基於向量量化的識別技術】

語音識別學習筆記（一）【概述】

kinect for unity 語音識別開發記錄

學習記錄-Qt中使用Q指標和D指標

語音識別工具箱之kaldi介紹

語音識別系統之kaldi-----安裝出現的錯誤

vue學習記錄 vue中引入樣式檔案

KALDI中聲紋識別學習流程及資源

OpenCV學習記錄之視訊中的火焰檢測識別

深度學習在語音識別中的演算法、應用、資料集、行業分析

iOS中語音識別功能／語音轉文字教程具體解釋韓俊強的博客

記錄在學習ML過程中，在MATLAB中集成LibSVM時遇到的問題

[轉]kaldi中的在線識別----Online Recognizers

[轉]Kaldi語音識別

【學習記錄】linux中問題解決方法記錄

語音識別學習記錄 [kaldi中的openfst]

相關推薦