用python實現語音識別

阿新 • • 發佈：2018-12-06

讀取和繪製音訊資料

　　實際的音訊訊號是複雜的連續波形，為了將其儲存成數字化形式，需要對音訊訊號進行取樣並將其轉換成數字，例如：語音通常以44100Hz的頻率進行取樣，這就意味著每秒鐘訊號被分解成44100份，然後這些抽樣被儲存。換句話說，每隔$\frac{1}{44100}Hz$就會儲存一次，如果取樣率高，那麼媒體播放音訊時會感覺訊號是連續的。

import numpy as np
import matplotlib.pyplot as plt
from scipy.io import wavfile

# 讀取音訊檔案
sampling_freq, audio = wavfile.read(' 
input_read.wav')

# 列印引數
print('Shape:', audio.shape)        # Shape: (132300,) 說明有132300個值
print('資料型別:', audio.dtype)     # 資料型別: int16
print('持續時間:', round(audio.shape[0] / float(sampling_freq), 3), 'seconds')
# 持續時間: 3.0 seconds
audio = audio / np.max(audio)    # 歸一化

audio = audio[:30]  # 提取音訊的前30個值 


# 建立時間軸
x_values = np.arange(0, len(audio), 1) / float(sampling_freq)
x_values *= 1000    # 將單位轉化為秒

# 畫出聲音訊號圖形
plt.plot(x_values, audio, color='blue')
plt.xlabel('Time (ms)')
plt.ylabel('Amplitude')
plt.title('Audio signal')
plt.show()

將音訊訊號轉換為頻域

　　音訊訊號是不同頻率、增幅和相位的正弦波的複雜混合。一個音訊訊號的本質由其頻率內容決定，

import numpy as np
from scipy.io import wavfile
import matplotlib.pyplot as plt

sampling_freq, audio = wavfile.read('input_freq.wav')   # 讀取檔案

audio = audio / np.max(audio)   # 歸一化，標準化

len_audio = len(audio)  # 3251

# 應用傅立葉變換
transformed_signal = np.fft.fft(audio)
print(transformed_signal)
# [-0.04022912+0.j         -0.04068997-0.00052721j -0.03933007-0.00448355j
#  ... -0.03947908+0.00298096j -0.03933007+0.00448355j -0.04068997+0.00052721j]
half_length = int(np.ceil((len_audio + 1) / 2.0))   # np.ceil向上取整(向大的方向取整)
transformed_signal = abs(transformed_signal[0:half_length])
print(transformed_signal)
# [0.04022912 0.04069339 0.0395848  ... 0.08001755 0.09203427 0.12889393]
transformed_signal /= float(len_audio)
transformed_signal **= 2

# 提取轉換訊號的長度
len_ts = len(transformed_signal)    # 1626

# 將部分訊號乘以2
if len_audio % 2:   # 奇數
    transformed_signal[1:len_ts] *= 2
else:               # 偶數
    transformed_signal[1:len_ts-1] *= 2

# 獲取功率訊號
power = 10 * np.log10(transformed_signal)

# 建立時間軸
x_values = np.arange(0, half_length, 1) * (sampling_freq / len_audio) / 1000.0

# 繪製語音訊號的
plt.figure()
plt.plot(x_values, power, color='blue')
plt.xlabel('Freq (in kHz)')
plt.ylabel('Power (in dB)')
plt.show()

自定義引數生成音訊訊號

合成音樂

提取頻域特徵

　　將訊號轉換為頻域之後，還需要將其轉換為有用的形式，梅爾頻率倒譜系數(MFCC)，MFCC首先計算訊號的功率譜，然後用濾波器組和離散餘弦變換的組合來提取特徵。

參考文獻：

《python機器學習經典案例》美Prateek Joshi著

傅立葉變換的介紹：http://www.thefouriertransform.com/

各種音階及其對應的頻率 http://pages.mtu.edu/~suits/notefreqs.html

用python實現語音識別

讀取和繪製音訊資料　　實際的音訊訊號是複雜的連續波形，為了將其儲存成數字化形式，需要對音訊訊號進行取樣並將其轉換成數字，例如：語音通常以44100Hz的頻率進行取樣，這就意味著每秒鐘訊號被分解成44100份，然後這些抽樣被儲存。換句話說，每隔$\frac{1}{44100}Hz$就會儲存一次，如果取樣率高

Python實現語音識別和語音合成

聲音的本質是震動，震動的本質是位移關於時間的函式，波形檔案(.wav)中記錄了不同取樣時刻的位移。通過傅立葉變換，可以將時間域的聲音函式分解為一系列不同頻率的正弦函式的疊加，通過頻率譜線的特殊分佈，建立音訊內容和文字的對應關係，以此作為模型訓練的基礎。案例：畫出語音訊號的波形和頻率分佈，（freq.w

Python調用OpenCV實現人臉識別

source display document down char name 實現 cvt config [硬件環境] Win10 64位 [軟件環境] Python版本：2.7.3 IDE：JetBrains PyCharm 2016.3.2 Python庫： 1.1)

Python終級教程！語音識別！大四學生實現語音識別技能！吊的不行

脫機 sta col ace with 如果教程響應 hone ▌語言識別工作原理概述語音識別源於 20 世紀 50 年代早期在貝爾實驗室所做的研究。早期語音識別系統僅能識別單個講話者以及只有約十幾個單詞的詞匯量。現代語音識別系統已經取得了很大進步，可以識別多個講話者，

【人工智慧】用Python實現一個簡單的人臉識別，原來我和這個明星如此相似

近幾年來，興起了一股人工智慧熱潮，讓人們見到了AI的能力和強大，比如影象識別，語音識別，機器翻譯，無人駕駛等等。總體來說，AI的門檻還是比較高，不僅要學會使用框架實現，更重要的是，需要有一定的數學基礎，如線性代數，矩陣，微積分等。幸慶的是，國內外許多大神都已經給我們造好“輪子”，我們可以直接來使用某些模型

【人工智能】用Python實現一個簡單的人臉識別，原來我和這個明星如此相似

數值但是智能深度學習 lib python 數學三方 python實現近幾年來，興起了一股人工智能熱潮，讓人們見到了AI的能力和強大，比如圖像識別，語音識別，機器翻譯，無人駕駛等等。總體來說，AI的門檻還是比較高，不僅要學會使用框架實現，更重要的是，需要有一定的數

【很有趣】用Python實現一個簡單的人臉識別，原來我和這個明星如此相似

近幾年來，興起了一股人工智慧熱潮，讓人們見到了AI的能力和強大，比如影象識別，語音識別，機器翻譯，無人駕駛等等。總體來說，AI的門檻還是比較高，不僅要學會使用框架實現，更重要的是，需要有一定的數學基礎，如線性代數，矩陣，微積分等。幸慶的是，國內外許多大神都已經給我們造好“輪子”，我們可

【Python】呼叫百度REST API實現語音識別

目前，語音識別，即將語音內容轉換為文字的技術已經比較成熟，遙想當時錘子釋出會上展示的訊飛輸入法語音識別，著實讓訊飛火了一把。由於此類語音識別需要採集大量的樣本，才能達到一定的準確度，個人很難從零開

識別MNIST資料集之（二）：用Python實現神經網路

在這篇文章當中，我們將會用根據MNIST的資料集，跟大家介紹神經網路進行分類的基本原理和方法。 1.神經網路的正向計算如果我們把神經網路當作一個黑盒來看，它的結構大概是這樣的：輸入（層）：一張圖片計算過程：神經網路輸出（層）：這張圖

用Python實現最簡單的文字識別：基於百度雲文字識別API

Python版本：3.6.5 百度雲提供的文字識別技術，準確率還是非常高的，而且每天還有5w次免費的呼叫量，對於用來學習或者偶爾拿來用用，已經完全足夠了。文章提供一個模板，稍加修改就可以直接套用。註釋中提到必須輸入的地方，你都正確地輸入了的話，就可以完成一次簡單的文字識別了

python調用百度語音識別接口實時識別

bsp 鼠標 -m pyw lan 語音識別 .com 實時代碼 1、本文直接上幹貨　　奉獻代碼：https://github.com/wuzaipei/audio_discern/tree/master/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%

94、tensorflow實現語音識別0,1,2,3,4,5,6,7,8,9

結果 test amp building pre cti fun ner edi ‘‘‘ Created on 2017年7月23日 @author: weizhen ‘‘‘ #導入庫 from __future__ import division,print_func

用python實現LBP特征點計算

i+1 [0 code read cvt lena 實現 ims numpy 1 import cv2 2 import numpy as np 3 4 5 def olbp(src): 6 dst = np.zeros(src.shape,dty

21-城裏人套路深之用python實現邏輯回歸算法

rom 成功基礎知識壓力 dvp ilb nbsp html 感覺如果和一個人交流時，他的思想像彈幕一樣飄散在空中，將是怎樣的一種景象？我想大概會毫不猶豫的點關閉的。生活為啥不能簡單明了？因為太直白了令人乏味。保留一些不確定性反而撲朔迷離，引人入勝。我們學習了線性回歸

用python實現歸並排序

想是一個 pass 列合並 cnblogs plist post 思想 str def merge(lfrom, lto, low, mid, high): i, j, k = low, mid, low while i < mid and j &l

用python實現一個命令行文本編輯器

screen alt 保存模型既然 ffffff 圖片單行 pda “這看起來相當愚蠢”——題記　　不過我整個人都很荒誕，何妨呢？貼一張目前的效果圖　　看起來很舒服，不是麽？即使一切都是個幌子：光標只能在最後，按一下上下左右就會退出，一行超出75個字符

用python實現銀行轉賬功能

賬號 pytho exec llb 賬戶密碼 rollback money 輸入數據 #coding:utf-8 import MySQLdb #調用MySQL數據庫模塊 conn=MySQLdb.Connect( host='.........

用 Python 實現武科大教務處自動搶課

kit overflow 簡單的 pos request 直接 sts itl head 首先分析網頁，找到教務處登錄的驗證碼然後用 Python 直接把驗證碼下載到本地（整個程序通過 requests 庫實現）： def GetRandCode(): url

用Python實現一個大數據搜索及源代碼

Python編程語言 Python案例講解 Python基礎精講在日常生活中，大家了解搜索引擎如百度、360、搜狗、谷歌等，搜索是大數據領域裏常見的需求。Splunk和ELK分別是該領域在非開源和開源領域裏的領導者。本文利用很少的Python代碼實現了一個基本的數據搜索功能，試圖讓大家理解大數據

用Python實現Excel的讀寫

github exc orm pytho sheet bin blog light int 一、讀excel文件的簡單示例 #!/usr/bin/env python # -*- coding:utf-8 -*- import xlrd from xlrd.bo

用python實現語音識別

讀取和繪製音訊資料

將音訊訊號轉換為頻域

自定義引數生成音訊訊號

合成音樂

提取頻域特徵

相關推薦