1. 程式人生 > >近期分享幹貨,使用python實現語音文件的特征提取方法

近期分享幹貨,使用python實現語音文件的特征提取方法

proc nag python實現 但是 比較 http 使用 文件 識別

Python編程語言無疑是人工智能最重要的語言之一,但是其中語音識別是當前人工智能比較熱門的方向,百度的小度機器人、阿裏的天貓精靈等其他各大公司都推出了各自的語音助手機器人,其識別算法主要是由RNN、LSTM、DNN-HMM等機器學習和深度學習技術做支撐。但訓練這些模型的第一步就是將音頻文件數據化,提取當中的語音特征。

MP3文件轉化為WAV文件

錄制音頻文件的軟件大多數都是以mp3格式輸出的,但mp3格式文件對語音的壓縮比例較重,因此首先利用ffmpeg將轉化為wav原始文件有利於語音特征的提取。其轉化代碼如下:
技術分享圖片
讀取WAV語音文件,對語音進行采樣

利用wave庫對語音文件進行采樣。

代碼如下:

技術分享圖片
繪制聲波折線圖與頻譜圖

代碼如下:
技術分享圖片
首先利用百度AI開發平臺的語音合API生成的MP3文件進行上述過程的結果。

聲波折線圖
技術分享圖片
頻譜圖
技術分享圖片
全部代碼
技術分享圖片
技術分享圖片
技術分享圖片
以上這篇就是小編分享的使用python實現語音文件的特征提取方法。

近期分享幹貨,使用python實現語音文件的特征提取方法