speech_recognition實現錄音ffmpeg實現音訊檔案轉換，並用百度語音的sdk實現語音識別

阿新 • • 發佈：2018-11-01

專案說明：

在windows平臺下，使用speech_recognition記錄音訊，並轉換為16k的wav，之後利用ffmpeg將wav轉化為pcm檔案，上傳到百度語音端，返回語音資訊，並利用pyttsx3添加了簡單的互動功能。

需求模組：

speech_recognition， pyttsx3， pyaudio， wave， aip， ffmpeg

模組安裝：

speech_recognition: https://pypi.org/project/SpeechRecognition/
pyttsx3: https://blog.csdn.net/dss_dssssd/article/details/82693742
pyaudio: https://pypi.org/project/PyAudio/
aip:https://ai.baidu.com/docs#/ASR-Online-Python-SDK/top
ffmpeg (Windows下） 注意是系統的環境變數，不是個人的path
https://blog.csdn.net/zhuiqiuk/article/details/72834385

程式碼如下

import speech_recognition as sr
import pyttsx3
import pyaudio
import wave
from aip import AipSpeech
import 
 os

# 讀取wav檔案並播放
def read_wav():
    CHUNK = 1024
# 測試語音
    wf = wave.open('./2.wav', 'rb')
        # read data
    data = wf.readframes(CHUNK)
    p = pyaudio.PyAudio()
    FORMAT = p.get_format_from_width(wf.getsampwidth())
    CHANNELS = wf.getnchannels()
    RATE = wf.getframerate()

    print('FORMAT: {} \nCHANNELS: {} \nRATE: {}' 
.format(FORMAT, CHANNELS, RATE))
    stream = p.open(format=FORMAT,

                    channels=CHANNELS,
                    rate=RATE,
                    frames_per_buffer=CHUNK,
                    output=True)
    # play stream (3)
    while len(data) > 0:
        stream.write(data)
        data = wf.readframes(CHUNK)



def wav_to_pcm(wav_file):
    # 假設 wav_file = "音訊檔案.wav"
    # wav_file.split(".") 得到["音訊檔案","wav"] 拿出第一個結果"音訊檔案"  與 ".pcm" 拼接 等到結果 "音訊檔案.pcm"
    pcm_file = "%s.pcm" %(wav_file.split(".")[0])
    # 就是此前我們在cmd視窗中輸入命令,這裡面就是在讓Python幫我們在cmd中執行命令
    os.system("ffmpeg -y  -i %s  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 %s"%(wav_file,pcm_file))

    return pcm_file

def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()


""" 你的 APPID AK SK """
# 需要根據自己申請的填寫
# APP_ID = '你的 App ID'
# API_KEY = '你的 Api Key'
# SECRET_KEY = '你的 Secret Key'
# 這是測試id，key
APP_ID = '14545668'
API_KEY = 'BLG4GIxozxXia9U8KKtLBl2j'
SECRET_KEY = 'z0ITqlx8OXiveTePBvD7jkSCdGKthZAy'

def speech_interaction():
    # 初始化pyttsx3 engine
    engine = pyttsx3.init()

    # obtain audio from the microphone
    # 從麥克風記錄資料
    r = sr.Recognizer()
    with sr.Microphone() as source:
        # print("Say something!")
        engine.say("門外有客人來訪，需要開門嗎, 請一秒後回答？")
        engine.runAndWait()
        r.adjust_for_ambient_noise(source)
        audio = r.listen(source)

    engine.say("錄音結束, 識別中")
    engine.runAndWait()
    # 將資料儲存到wav檔案中
    with open("2.wav", "wb") as f: 
        f.write(audio.get_wav_data(convert_rate=16000))
     
     # 將記錄的語音播放出來
     read_wav()      
    # 建立百度語音識別客戶端
    client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

    # 轉成pcm格式
    pcmFile = wav_to_pcm("./2.wav")
    result = client.asr(get_file_content(pcmFile), 'pcm', 16000, {
        'dev_pid': 1537,
    })
    print(result)
    # print(result['err_msg'], result['result'][0])

    # 上傳到百度雲識別
    try:
        success = True if result['err_msg'] == 'success.' else False
        print(success)
        if success:
            text = result['result'][0]
            if "不" in text :
                engine.say("好的，那請您自己去開門")
                engine.runAndWait()
            elif "開" in text or '好' in text:
                engine.say("請您稍等，我去幫您開門，")
                engine.runAndWait()
            else:
                engine.say("語音識別錯誤")
                engine.runAndWait()
            # engine.say(text)
            # engine.runAndWait()
    except Exception as e:
        engine.say("抱歉， 識別錯誤")
        engine.runAndWait()

# 執行程式碼
speech_interaction()

注意：

pyttsx3的pyttsx3.engine()初始化不能放線上程中進行，會錯。

說明：

如果返回timeout錯誤，在網路暢通的情況下，建議換一個id和key試一下。

專案放在github上了:
https://github.com/MengRe/speech_commmunication/tree/master

speech_recognition實現錄音ffmpeg實現音訊檔案轉換，並用百度語音的sdk實現語音識別

專案說明：在windows平臺下，使用speech_recognition記錄音訊，並轉換為16k的wav，之後利用ffmpeg將wav轉化為pcm檔案，上傳到百度語音端，返回語音資訊，並利用pyttsx3添加了簡單的互動功能。需求模組： speech_recognit

iOS·採用第三方(百度地圖SDK)實現定位等功能開發

陳滿iOS 關注 2017.05.01 01:06* 字數 2212 閱讀 6818評論 7喜歡 133 1.申請金鑰首先，申請一個baidu賬號，接著進入新建金鑰入口申請成為baidu地圖開發者，填寫相關開發者資訊和簡訊驗證碼。接

Android整合百度定位SDK實現獲取定位地址

應用場景：實現APP的網路定位功能 1.整合SDK 去百度建立應用，獲取到AK，下載定位SDK,把裡面的jar包新增到libs下。其他os檔案就放在main下新建的jniLilbs裡，如圖： 2.程式碼貼出 package com.jin.baidudemo;

安卓開發使用百度地圖sdk實現定位，新增marker，城市切換等功能

許久不寫部落格，慢慢的變的有些懶惰。keep coding,keep learining。關於學習使用百度地圖sdk，我六點要說。。。。。。哈哈哈哈，玩笑歸玩笑，說正經的，百度地圖sdk的幫助文件寫的不是很好，很多地方不完善，有偷懶的嫌疑，建議學習時配合類參考，有歧義不清

Android使用百度地圖SDK實現定位與方向感測器匹配

public class MylocationListener implements BDLocationListener { //定位請求回撥介面 private boolean isFirstIn=true; //定位請求回撥函式,這裡面會得到定位資

關於ffmpeg 的總結（一個linux 下集螢幕錄影錄音，音訊視訊轉換，合併音訊視訊檔案，格式轉換於一身的命令）

當然先安裝了 gentoo 下一條命令搞定 emerge ffmpeg 格式轉換 (將file.avi 轉換成output.flv) ffmpeg -i file.avi output.flv -i 表示輸入檔案

實現字符串的編碼轉換，用以解決字符串亂碼問題

cnblogs min als 獲取轉換編碼工具 auth color enum 引起亂碼的情況很多~實質上主要是字符串本身的編碼格式與程序所需要的編碼格式不一致導致的。要解決亂碼其實很簡單，分2步：　　1：獲取到字符串本身的編碼　　2：改變字符串編碼（

python實現DNA序列字符串轉換，互補鏈，反向鏈，反向互補鏈

seq string 子序列 ron 生物信息一個 make quest 使用字符串在生物信息學分析中，經常對DNA序列進行一系列操作，包括子序列截取，互補序列獲取，反向序列獲取，反向互補序列獲取。在python語言中，可編寫如下函數完成這些簡單功能。子序

百度地圖API實現地址&經緯度互相轉換

原文地址：https://blog.csdn.net/a497785609/article/details/72356588 1.根據地址取得經緯度：請求地址：http://api.map.baidu.com/geocoder/v2/?address=中國成都人才市場&output

Android開發使用Lame把音訊檔案轉換成mp3格式

轉自：http://www.pocketdigi.com/20130306/996.html Android錄音預設不支援mp3格式，為了生成mp3，可以錄製raw格式，再使用lame轉換成mp3.Lame是用C語言寫的，所以需要NDK編譯。編譯方法：http://developer.samsu

使用FFMpeg 解碼音訊檔案

本篇文章將介紹使用FFMpeg解碼音訊檔案為PCM的資料。使用FFMpeg獲取想要的音訊資料的步驟如下：解封裝(MP3檔案)->解碼(MP3編碼)->PCM資料重取樣 1. 解封裝使用FFMpeg解封裝的步驟如下：使用函式 av_re

使用ffmpeg 操作音訊檔案前後部分靜音移除.

指令特別簡單, 但是卻琢磨了一下午. 總結看文件時要細心, 主要ffmpeg的版本要 8.2.1 以上 ffmpeg -i in.mp3 -af silenceremove=start_periods=1:start_threshold=-30dB:stop_periods=0:sto

使用ffmpeg解碼音訊檔案到PCM格式

最近忙於使用ffmpeg播放音樂檔案的專案，現將開發經驗總結如下：一、解碼音樂檔案的大致流程如下： 1，開啟音樂檔案，呼叫av_open_input_file() 2，查詢audio stream，呼叫av_find_stream_info() 3，查詢對應的decode

wav格式音訊檔案轉換為Mp3格式

1.編譯lame（我用的lame-3.99.5）庫編譯後會生成相應的lame動態庫編譯步驟: （1）進到原始碼目錄，找到configure檔案，在命令列執行./configure (-h)帶引數可以檢視編譯的資訊（2）make （3）make install 2.將編

C# NAudio錄音和播放音訊檔案-實時繪製音訊波形圖（從音訊流資料獲取，而非裝置獲取）

　　NAudio的錄音和播放錄音都有對應的類，我在使用Wav格式進行錄音和播放錄音時使用的類時WaveIn和WaveOut，這兩個類是對功能的回撥和一些事件觸發。　　在WaveIn和WaveOut之外還有對音訊流讀寫使用的WaveFileWriter和WaveFileReader類，具體細節可檢視其原始碼進

基於百度地圖SDK和Elasticsearch GEO查詢的地理圍欄分析系統（3）-前端實現

方便復制類型復制代碼自動跳轉 rar 窗口 stack delete 轉載自：http://www.cnblogs.com/Auyuer/p/8086975.html MoonLight可視化訂單需求區域分析系統實現功能：　　在現實生活中，計算機和互聯網迅速發展，

python，使用百度api實現復制截圖中的文字

content nsh AD con 讀取 __name__ return IT now() 百度雲文字識別技術文檔： https://cloud.baidu.com/doc/OCR/OCR-Python-SDK.html#.E6.96.B0.E5.BB.BAAipOcr

百度webuploader如何實現秒傳與斷點續傳

因為這是小眾需求，所以預設沒有做在webuploader裡面，而只是提供hook介面，讓使用者很簡單的擴充套件此功能。那麼，都有哪些重要的hook介面呢？ before-send-file 此hook在檔案傳送之前執行 before-file 此hook在檔案分片（如果沒有

整合百度地圖API實現定位

一．百度地圖API獲取定位 AndroidManifest.xml必須配置：定位服務 <service &nbs

python3使用百度翻譯API實現自動翻譯

百度翻譯開放平臺註冊登入，建立個人服務檢視技術文件介面引數配置例項應用翻譯一個單詞翻譯一句話翻譯一段話註冊登入，建立個人服務在此不詳

speech_recognition實現錄音ffmpeg實現音訊檔案轉換，並用百度語音的sdk實現語音識別

專案說明：

需求模組：

模組安裝：

程式碼如下

注意：

說明：

相關推薦