1. 程式人生 > >自頂向下分析一個簡單的語音識別系統(一)

自頂向下分析一個簡單的語音識別系統(一)

RNN處理帶有時間序列的資料時具有很大的優勢,接下來幾篇文章將介紹如何使用RNN訓練一個簡單的語音識別系統。
主要參考該GitHub專案,https://github.com/silicon-valley-data-science/RNN-Tutorial以及這篇文章http://www.tuicool.com/articles/JvQb2iV
該專案使用tensorflow1.0.1構建(python3.5)
目錄結構如下圖所示:
目錄結構
其中,
configs目錄放置專案所需要的配置資訊;
models目錄存放訓練結果;
data目錄放置待訓練的語音資料;
src目錄放置專案所有原始碼,安排如下:

data_manipulation/datasets.py 操作資料,獲取訓練時每個batch所需資料
features/utils/load_audio_to_mem.py 獲取語音資訊(.wav檔案)並提取mfcc特徵
features/utils/text.py 對訓練的語音文字進行相關處理
models/RNN/rnn.py 構建訓練所需的BiRNN網路
models/RNN/utils.py 構建訓練的AdamOptimizer
train_framework/tf_train_ctc.py 訓練的主函式以及類
utils/gpu.py 檢視是否能使用gpu
utils/set_dirs.py 一些目錄操作

詳細的程式碼分析,從下回開始細細分解。