1. 程式人生 > >數字語音訊號處理學習筆記——緒論(2)

數字語音訊號處理學習筆記——緒論(2)

版權宣告:本文為博主原創文章,未經博主允許不得轉載。    https://blog.csdn.net/u013538664/article/details/25060123
1.2.2 語音編碼

語音編碼的目的是在保證一定語音質量的前提下,儘可能降低編碼位元率,以節省頻率資源。

        語音編碼技術的鼻祖:

        研究開始於1939年軍事保密通訊的需要,貝爾電話實驗室的Homer Dudley提出並實現了在低頻頻寬電話電報電纜上傳輸語音訊號的通道聲碼器。

        20世紀70年代:國際電聯(ITU-T,原CCITT)64kbit/s脈衝編碼調製(PCM)語音編碼演算法的G.711建議,它被廣泛應用於數字通訊、數字交換機等領域,從而佔據統治地位。

        1980年:美國政府公佈了一種2.4kbit/s的線性預測編碼標準演算法LPC-10,這使得在普通電話頻寬中傳輸數字電話成為可能。ITU-T也於20世紀80年代初著手研究低於64kbit/s的非PCM編碼演算法,並於1984年通過了32kbit/s ADPCM語音編碼G.721建議,它不僅可以達到與PCM相同的語音質量,而且具有更優良的抗誤碼效能。1988年美國又公佈了一個4.8kbit/s的碼激勵線性預測(CELP)編碼演算法。與此同時,歐洲也推出了一個16kbit/s的規則脈衝激勵線性預測(RPE-LPC)編碼演算法。

       20世紀90年代:隨著因特網在全球範圍的興起,人們對能在網路上傳輸語音的VoIP技術興趣大增,由此,IP分組語音通訊技術獲得了突破性進展和實際應用。

       20世紀90年代中期到現在,第三代移動通訊技術逐漸成熟並走向商用,變速率語音編碼和頻寬語音編碼得到了迅速的發展,不斷有新的國際標準和地區標準公佈。

       語音編碼技術主要有兩個努力的方向:一是中低速率的語音編碼的實用化及如何在實用化過程中進一步提高其抗干擾、抗噪聲能能力;另一個是如何進一步降低其編碼速率。

1.2.3 語音識別

       與機器進行語音交流,讓機器明白你說什麼,這是人們長期以往夢寐以求的事情。而語音識別技術就是讓機器通過識別和理解過程把語音訊號轉變為相應的文字或命令的高科技。根據在不同限制條件下的研究任務,產生了不同的研究研究領域。這些領域包括:

       1) 根據對說話人說話方式的要求,可以分為孤立字語音識別系統、連續字語音識別系統及連續語音識別系統

       2) 根據對說話人的依賴程度可以分為特定人和非特定人語音識別系統

       3) 根據詞彙量大小,可以分為小詞彙量、中等詞彙量、大詞彙量及無限詞彙量語音識別系統

       語音識別工作開始:

       20世紀50年代:AT&T貝爾實驗室的Audry系統,它是第一個可以識別10個英語數字的語音識別系統。

       1956年:RAC實驗室的Olson等人也獨立地研製出了10個單音節詞的識別系統,系統採用從帶通濾波器組獲得的                       頻譜引數作為語音的特徵。

       1959年:Fry和Denes等人採用頻譜分析和模式匹配進行識別決策構建音素識別器來辨別4個母音和9個子音。

                      MIT林肯實驗室採用聲道的時變估計技術研究10個母音的識別

       20世紀60年代末:重要成果是提出了動態規劃(DP)和線性預測編碼(LPC)分析技術,其中後者較好地解決                                        了語音訊號產生模型的問題,對整個語音識別、語音合成、語音分析、語音編碼的研究發展產                                      生了深遠影響。

       20世紀70年代:在理論上,LPC技術得到進一步發展,動態時間規整(DTW)技術基本成熟,特別是提出了矢                                    量量化(VQ)和隱馬爾可夫模型(HMM)理論。在實踐上,首先在孤立詞識別方面,由日本學

                                 者Sakoe給出了使用動態規劃方法(DP)進行語音識別的途徑——DP演算法。Itakura基於語音編                                    碼中廣泛使用的LPC技術,通過定義基於LPC頻譜引數的合適的距離測度,成功地將其應用到語                                  音識別中。同時,以IBM為首的一些語音研究單位還著手開展了連續語音識別的研究。

       20世紀70年代末到20世紀80年代初:Linda、Buzo、Gray等人解決了向量量化碼本生成的方法,並將向量量化成                                                                   功地應用到語音編碼中,從此向量量化技術很快被推廣應用到其他領域。

       20世紀80年代開始:語音識別研究進一步走向深入,就是識別演算法從模式匹配技術轉向基於統計模型的技術,更                                         多地追求從整體統計的角度來建立最佳的語音識別系統。HMM技術就是其中的一個典型技                                           術。

       20世紀80年代中期:重新開始的人工神經網路(ANN)研究,也給語音識別帶來一片新的生機。

       20世紀90年代初期:許多發達國家如美國、日本以及IBM、Apple、AT&T、NTT等著名公司都為語音識別系統的                                         實用化開發研究投以巨資。

       如今,深度神經網路(DNN)在語音領域的應用,使得語音識別效能又上了一個新的臺階。

1.3 語音訊號處理過程的總體結構


--------------------- 
作者:JameJuZhang 
來源:CSDN 
原文:https://blog.csdn.net/jojozhangju/article/details/25060123 
版權宣告:本文為博主原創文章,轉載請附上博文連結!