1. 程式人生 > >語音識別(SR)的秘密

語音識別(SR)的秘密

天上掉餡餅 mar 天上 的人 spa 谷歌 pos bottom 微軟

語音識別(SR)功能是當今國外操作系統的標準特征,而國產操作系統根本不具備這樣的特質,並且國家隊沒有相關的主觀動力。去開發實際可用的語音識別系統。與國外相比,國產操作系統落後了一大節子,怪誰?



如何讓機器識別人的語音?事實上大道理並不復雜。首先,讓機器設備聽懂元音,然後聽懂輔音。將兩者合成起來成為單詞,再做進一步的處理。可是。實際做起來就復雜了。

怎麽做?



建立“語料庫”(Corpus),就是建立語音的聲學模型庫。比方。”貓“這個單詞的發音,必須讓機器記住“貓”的發音,設法讓機器聽到“貓”所相應的“聲音”(所謂”生物信號“)就知道主人對它說的是“貓”。語料庫就是建立單詞與語音的相應關系。這是基本建設,須要投入大量的人力、物力。別無他法。



不論什麽語音都有個人特征,盡管100個人的發音基本同樣,可是,存在一定的差異。

所以機器的聽覺總是存在“錯誤率”,這是必定的。減少機器識別錯誤率是必要的。這是一個基本認識,對機器不能要求過高。機器耳朵永遠比只是人耳。



微軟、谷歌、百度語音識別巨頭都擁有各自的數萬小時的語料庫,可是,我們卻沒有,Linux社區也沒有GPL可用的語料庫(VoxForge不帶我們玩)。

怎麽辦?天上不會自己主動掉餡餅。

要知道。私有公司建立自己的版權大型語料庫總是要付出巨大的投入成本。而我們有人喜歡天上掉餡餅。整天坐在院子裏面張著大嘴巴對著藍天等著天上掉下餡餅來。



袁萌 714



語音識別(SR)的秘密