【由於CSDN的markdown的排版不是很好，所以整理了一下，新的地址：http://blog.csdn.net/c910511/article/details/54839160】


    公司要在微信小程式上面實現語音識別的功能，後端的踩坑功能就落到了我的頭上了。本著好好學習，努力研究的精神，二話不說就接下了這個任務了。
    我在公司的開發環境是在Window上面的，而生產環境是在Ubuntu上面的，所以有的時候開發出來的東西會有一點相容的問題，這個見怪不怪了。在Window環境上面研究的過程中規中矩，沒有碰到上面太多或者太大的坑。下面先說一下實現的大概思路，接著在說一下遇到的坑。
    我們是在微信的小程式上面呼叫微信的錄音介面，把錄音上傳到我們後端進行處理，我們後端接收到微信小程式傳回來的語音檔案，這個語音檔案是SILK格式的，我們收到SILK格式的檔案後，先要將SILK檔案轉換為WAV格式或者PCM(音訊取樣率要是 16k 或者 8k，16 位，單聲道音訊),在檔案轉換成功後，然後呼叫訊飛的語音識別的介面，把語音轉換為文字的格式，然後使用這個文字進行相對應的邏輯操作。
    微信用的SILKv3編碼是Skype向第三方開發人員和硬體製造商提供免版稅認證(RF)的Silk寬頻音訊編碼器，Skype後來將其開源。反正錄音的檔案很小，發回來的都是幾K的，轉換為PCM或者WAV都是100K左右。下面說一下遇到的坑和爬坑過程：
    坑一：libmsc64.so檔案不生效。花費了一天的時間看文件那些，已經在Window上面把整體的流程跑通了，程式的識別率還是挺高的，接下來要做的是把這個程式配置到測試伺服器上面，看能不能給前端的小程式跑通。因為訊飛的服務要用到動態庫的，而在Window上面的動態庫可以直接放到專案的根目錄或者System32 目錄，但是Ubuntu要自己手動指定LD_LIBRARY_PATH的目錄，雖然之前Linux系統用了很久，但是至少一些基礎得操作，LD_LIBRARY_PATH這個之前是沒有搞過。。。，百度了好久，按照百度的教程配置了一下，發現配置成功了，但是程式卻死活說缺包，實在不行，所以我就把libmasc64.so檔案放到/lib/ 和 /lib64/ 目錄，發現也不行，列印了一些動態庫的地址，/lib/ 和 /lib64/ 目錄是有配置了的，可以直接把so檔案放進去的，很無奈，搞了半天，死活不生效，測試服上面有很多東西，是不能重啟的。最後只能在程式碼裡面執行System.load(/xxxx/libmac64.so),這樣把檔案載入進去，這個是沒有辦法的辦法。
    坑二：語音轉換功能public static void RecognizePcmfileByte(String uuid,String filePath)功能要在訊飛的註冊SpeechUtility.createUtility("appid=" + APPID) 成功後才能只能，不然也會報錯，大概的意思是缺動態庫包，所以我把訊飛的註冊功能在在專案執行的ServletContentListener裡面，這樣就可以保在呼叫轉換語音功能前一定註冊成功了。

坑三：微信小程式檔案上傳BUG,因為這個BUG是微信的鍋，但是也影響到了我們功能的實現了，在我們把功能實現差不多了，前端也把小程式的檔案上傳上來了，識別率還是不錯的，在我們接受的範圍內，然後我就用我的手機掃碼嚐鮮一下，卻發現預約檔案上傳失敗，說是上傳的檔案為空。這個問題就很怪了，我們剛剛才在其他的手機上面測試是沒有什麼問題的，在我這裡卻又問題，難道是我的信仰有問題？試了多部手機才發現：在IPhone上面微信的上傳檔案是沒有什麼問題的，但是在Android上面上傳檔案是不行的，IPhone上面最新的微信是6.5多，Android的最新版本是6.3多，所以上傳檔案有問題，百度了一下，很多人都有這個問題【我們上傳檔案是直接用File上傳的，還沒有試過把檔案轉為base64再上傳】
坑四：訊飛識別率低的問題。我們在拿到微信的檔案後，是通過ffmpeg來進行轉碼的，轉碼的功能我是參考了這個開源專案

https://github.com/kn007/silk-v3-decoder進行轉換的，該專案是用到了Ffmpeg和Gcc，他在轉換的腳本里面

!/bin/bash

File: converter.sh

Date: August 19th, 2016

Time: 18:56:52 +0800

Usage: sh converter.sh silk_v3_file/input_folder output_format/output_folder flag(format)

Flag: not define —- not define, convert a file

other value —- format, convert a folder, batch conversion support

Requirement: gcc ffmpeg

Colors

RED=”\e[31;1m”
GREEN=”\e[32;1m”
YELLOW=”\e[33;1m”
WHITE=”\e[37;1m”
RESET=”\e[0m”

Main

cur_dir=$(cd dirname $0; pwd)

if [ ! -r “curdir/silk/decoder”];thenecho−e“{WHITE}[Notice]RESETSilkv3Decoderisnotfound,compileit.”cdcur_dir/silk
make && make decoder
[ ! -r “cur_dir/silk/decoder" ]&&echo -e "{RED}[Error]{RESET} Silk v3 Decoder Compile False, Please Check Your System For GCC.”&&exit
echo -e “{WHITE}========= Silk v3 Decoder Compile Finish =========${RESET}”
fi

cd $cur_dir

while [ 3 ]; do
    pidof /usr/bin/ffmpeg&&echo -e “{RED}[Error]{RESET} ffmpeg is occupied by another application, please check it.”&&exit
    [ ! -d “1" ]&&echo -e "RED[Error]{RESET} Input folder not found, please check it.”&&exit
TOTAL=(ls1|wc -l)
[ ! -d “2" ]&&mkdir "2”&&echo -e “WHITE[Notice]{RESET} Output folder not found, create it.”
[ ! -d “2" ]&&echo -e "{RED}[Error]{RESET} Output folder could not be created, please check it.”&&exit
    CURRENT=0
    echo -e “{WHITE}========= Batch Conversion Start ==========RESET”ls1 | while read line; do
let CURRENT+=1
curdir/silk/decoder"1/line""2/line.pcm” > /dev/null 2>&1
        if [ ! -f “2/line.pcm”];thenffmpeg−y−i“1/line”“2/{line%.*}.3” > /dev/null 2>&1 &
ffmpeg_pid=!whilekill−0“ffmpeg_pid”; do sleep 1; done > /dev/null 2>&1
[ -f “2/{line%.*}.3" ]&&echo -e "[CURRENT/TOTAL]{GREEN}[OK]RESETConvertline to {line%.*}.3 success, YELLOWbutnotasilkv3encodedfile.{RESET}”&&continue
echo -e “[CURRENT/TOTAL]YELLOW[Warning]{RESET} Convert line false, maybe not a silk v3 encoded file.”&&continue
        fi
        ffmpeg -y -f s16le -ar 24000 -ac 1 -i “2/line.pcm”“2/{line%.*}.3” > /dev/null 2>&1 &
ffmpeg_pid=!whilekill−0“ffmpeg_pid”; do sleep 1; done > /dev/null 2>&1
rm “2/line.pcm”
[ ! -f “2/{line%.*}.3" ]&&echo -e "[CURRENT/TOTAL]{YELLOW}[Warning]RESETConvertline false, maybe ffmpeg no format handler for 3.”&&continue
        echo -e “[CURRENT/TOTAL]{GREEN}[OK]RESETConvertline To {line%.*}.3 Finish.”
done
echo -e “WHITE=========BatchConversionFinish========={RESET}”
exit
done

curdir/silk/decoder"1” “1.pcm” > /dev/null 2>&1
if [ ! -f “1.pcm” ]; then
ffmpeg -y -i “1""{1%.*}.2” > /dev/null 2>&1 &
    ffmpeg_pid=!
while kill -0 “ffmpeg_pid”; do sleep 1; done > /dev/null 2>&1
    [ -f “{1%.*}.2” ]&&echo -e “{GREEN}[OK]RESETConvert1 to {1%.*}.2 success, YEL

小程式語音與訊飛語音識別踩坑過程

!/bin/bash

File: converter.sh

Date: August 19th, 2016

Time: 18:56:52 +0800

Usage: sh converter.sh silk_v3_file/input_folder output_format/output_folder flag(format)

Flag: not define —- not define, convert a file

other value —- format, convert a folder, batch conversion support

Requirement: gcc ffmpeg

Colors

Main

小程式語音與訊飛語音識別踩坑過程

Android開發之聲網即時通訊與訊飛語音識別相結合

訊飛語音識別SDK整合語音識別語音合成訊飛英語識別

Android集成訊飛語音、百度語音、阿裏語音識別

Unity接入訊飛語音識別___Android版

unity接科大訊飛語音識別Windows平臺（補充前面的文章，添加了錄音功能）

Winform利用訊飛語音WebAPI實現線上語音合成、語音識別

利用訊飛語音識別技術開發離線語音控制系統（Windows平臺）

訊飛語音語音識別輔助類

第三方整合訊飛語音識別文字轉音

訊飛語音命令詞識別的SDK配置與運用

android 語音識別之訊飛語音移植

Android開發之通過藍芽耳機實現訊飛語音識別的功能

科大訊飛語音識別時字串中特殊字元的處理

科大訊飛語音識別使用過程中踩過的坑

Android 科大訊飛語音識別金額數字

使用訊飛語音實現語音識別,朗讀文字

java版阿里雲,百度ai,訊飛語音識別效果簡單對比及demo

訊飛語音——離線命令詞識別

訊飛語音聲紋識別技術——自由說（文字密碼，數字密碼也會介紹）

小程式語音與訊飛語音識別踩坑過程

!/bin/bash

File: converter.sh

Date: August 19th, 2016

Time: 18:56:52 +0800

Usage: sh converter.sh silk_v3_file/input_folder output_format/output_folder flag(format)

Flag: not define —- not define, convert a file

other value —- format, convert a folder, batch conversion support

Requirement: gcc ffmpeg

Colors

Main

相關推薦