1. 程式人生 > >語音識別之初體驗

語音識別之初體驗

實時 popu 背景 pcc 詞匯 原則 分類 work 通過

一、概述

作為最自然的人機交互方式 --語音,正在改變人們的生活,豐富多媒體技術的應用。語音識別技術是語音信號處理的一個重要分支,也是近年來非常火的一個研究領域。

隨著科技的飛速發展,語音識別不僅在桌面PC和大型工作站得到了廣泛應用,並且在嵌入式系統領域也占有一席之地。如智能家居、蘋果的Siri、車載語音識別系統等。相信在不久的將來,語音識別技術必然會滲透在人們生活的每一個角落。

二、語音識別系統的分類

語音識別依照說話人的說話方式能夠分為孤立詞(IsolatedWord)識別、連接詞(Connected Word)識別和連續語音(Continuous Speech)識別。孤立詞識別是指說話人每次僅僅說一個詞或短語。每一個詞或短語在詞匯表中都算作一個詞條,一般用在語音電話撥號系統中;連接詞語音識別支持一個小的語法網絡,其內部形成一個狀態機。能夠實現簡單的家用電器的控制,而復雜的連接詞語音識別系統能夠用於電話語音查詢、航空訂票等系統;連續語音識別是指對說話人以日常自然的方式發音,通常特指用於語音錄入的聽寫機。

從識別對象的類型來看。語音識別能夠分為特定人(SpeakerDependent)語音識別和非特定人(Speaker Independent)語音識別

特定人是指僅僅針對一個用戶的語音識別,非特定人則可用於不同的用戶。

從識別的詞匯量大小能夠分為小詞匯量(詞數少於100)、中等詞匯量(詞數100~500)和大詞匯量(詞數多於500

非特定人大詞匯量連續語音識別是近幾年研究的重點,也是研究的難點。眼下的連續語音識別大多是基於HMM(隱馬爾科夫模型)框架,並將聲學、語言學的知識統一引入來改善這個框架。其硬件平臺一般是功能強大的工作站或PC機。

三、語音識別的原理

語音識別就是對麥克風輸入的語音信號進行解析和理解,並將其轉化為對應的文本或命令。

一個完整的語音識別系統主要包含三個部分:

(1)語音特征提取(前端處理部分):目的是濾除各種幹擾成分。從語音波形中提取出隨時間變化的能表現語音內容的特征矢量序列。

(2) 聲學模型和模式匹配(識別算法):聲學模型通常由獲得的語音特征通過訓練產生。目的是為每一個發音建立發音模板。

在識別時將輸入的語音特征同聲學模型進行匹配與比較。得到最佳識別結果。

(3) 語義理解(後處理):計算機對識別結果進行語義、語法分析,明確語音的意義以便做出對應的反應,通常通過語言模型來實現。

語音識別原理例如以下圖所看到的:

技術分享

待識別語音經話筒轉化為電信號後加在識別系統的輸入端。經過預處理。接著進行語音特征提取。用反映語音信號特征的若幹參數來代表原始語音。經常使用的語音特征包含:線性預測系數(LPC

)、線性預測倒譜系數(LPCC)、Mel頻譜系數(MFCC)等。接下來分為兩個階段::訓練階段和識別階段

在訓練階段。對用特征參數形式表示的語音信號進行相應處理,獲得表示識別基本單元共性特點的標準數據,以此構成參考模板,將全部能識別的基本單元的參考模板結合在一起。形成參考模式庫。在識別階段,將待識別的語音信號經特征提取後逐一與參考模式庫中的各個模板按某種原則進行匹配。找出最相似的參考模板所相應的發音,即為識別結果。最後進行語音處理,涉及語法分析、語音理解、語義網絡等。

語音識別過程要依據模式匹配原則,計算未知語音模式與語音模板庫中的每個模板的距離測度,從而得到最佳的匹配模式。語音識別所應用的模式匹配方法主要有動態時間規整(Dynamic Time Warping。DTW),隱馬爾科夫模型(Hidden Markov Model,HMM)和人工神經元網絡(Artificial Neural Networks。ANN)。

四、難題

識別率是衡量語音識別系統性能好壞的一個重要指標,在實際應用中。識別率主要受到下面幾個因素的影響:

1、 對於漢語語音識別,方言或口音會減少識別率;

2、 背景噪聲。

公共場所的強噪聲對識別效果影響甚大,即使是在實驗室環境下。敲擊鍵盤、移動麥克風都會成為背景噪聲;

3、 “口語”問題。

它既涉及到自然語言理解,又與聲學有關。語音識別技術的終於目的是要讓用戶在“人機對話”時。可以像進行“人與人對話”一樣自然,而一旦用戶以跟人交談的方式進行語音輸入時,口語的語法不規範和語序不正常的特點會給語義的分析和理解帶來困難。

此外,識別率還與說話人的性別、說話時間長短等有關。

實時性是衡量語音識別系統性能好壞的還有一指標。

對於具有快速運算能力的CPU和大容量存儲器的PC而言,基本上可以滿足實時性的要

求;而對於資源有限的嵌入式系統來說。實時性差點兒得不到保證。

參考資料:《matlab擴展編程》

2014年6月26日星期四15時28分

語音識別之初體驗