音頻自動增益與靜音檢測算法附完整C代碼

阿新 • • 發佈：2018-04-22

kron gmm input del led sampler 文件 += frame

前面分享過一個算法《音頻增益響度分析 ReplayGain 附完整C代碼示例》

主要用於評估一定長度音頻的音量強度，

而分析之後，很多類似的需求，肯定是做音頻增益，提高音量諸如此類做法。

不過在項目實測的時候，其實真的很難定標準，

到底在什麽樣的環境下，要增大音量，還是降低。

在通訊行業一般的做法就是采用靜音檢測，

一旦檢測為靜音或者噪音，則不做處理，反之通過一定的策略進行處理。

這裏就涉及到兩個算法，一個是靜音檢測，一個是音頻增益。

增益其實沒什麽好說的，類似於數據歸一化拉伸的做法。

靜音檢測在WebRTC中是采用計算GMM (Gaussian Mixture Model,高斯混合模型)進行特征提取的。

在很長一段時間裏面，音頻特征有3個主要的方法，

GMM ,Spectrogram (聲譜圖), MFCC 即 Mel-Frequency Cepstrum(Mel頻率倒譜)

恕我直言,GMM 提取的特征，其魯棒性不如後兩者。

也不多做介紹，感興趣的同學，翻翻維基百科 ,補補課。

當然在實際使用算法時，會由此延伸出來一些小技巧。

例如，用靜音檢測來做音頻裁剪，或者搭配音頻增益做一些音頻增強之類的操作。

自動增益在WebRTC 源代碼文件是:analog_agc.c 和 digital_agc.c

靜音檢測源代碼文件是: webrtc_vad.c

這個命名，有一定的歷史原因了。

經過梳理後，

增益算法為 agc.c agc.h

靜音檢測為 vad.c vad.h

增益算法的完整示例代碼：

#include <stdio.h>
#include <stdlib.h>
#include <stdint.h>
//采用https://github.com/mackron/dr_libs/blob/master/dr_wav.h 解碼
#define DR_WAV_IMPLEMENTATION
#include "dr_wav.h"
#include "agc.h"

#ifndef nullptr
#define nullptr 0
#endif

#ifndef MIN
 
#define  MIN(A, B)        ((A) < (B) ? (A) : (B))
#endif

//寫wav文件
void wavWrite_int16(char *filename, int16_t *buffer, size_t sampleRate, size_t totalSampleCount) {
    drwav_data_format format = {};
    format.container = drwav_container_riff;     // <-- drwav_container_riff = normal WAV files, drwav_container_w64 = Sony Wave64.
    format.format = DR_WAVE_FORMAT_PCM;          // <-- Any of the DR_WAVE_FORMAT_* codes.
    format.channels = 1;
    format.sampleRate = (drwav_uint32) sampleRate;
    format.bitsPerSample = 16;
    drwav *pWav = drwav_open_file_write(filename, &format);
    if (pWav) {
        drwav_uint64 samplesWritten = drwav_write(pWav, totalSampleCount, buffer);
        drwav_uninit(pWav);
        if (samplesWritten != totalSampleCount) {
            fprintf(stderr, "ERROR\n");
            exit(1);
        }
    }
}

//讀取wav文件
int16_t *wavRead_int16(char *filename, uint32_t *sampleRate, uint64_t *totalSampleCount) {
    unsigned int channels;
    int16_t *buffer = drwav_open_and_read_file_s16(filename, &channels, sampleRate, totalSampleCount);
    if (buffer == nullptr) {
        printf("讀取wav文件失敗.");
    }
    //僅僅處理單通道音頻
    if (channels != 1) {
        drwav_free(buffer);
        buffer = nullptr;
        *sampleRate = 0;
        *totalSampleCount = 0;
    }
    return buffer;
}

//分割路徑函數
void splitpath(const char *path, char *drv, char *dir, char *name, char *ext) {
    const char *end;
    const char *p;
    const char *s;
    if (path[0] && path[1] == ‘:‘) {
        if (drv) {
            *drv++ = *path++;
            *drv++ = *path++;
            *drv = ‘\0‘;
        }
    } else if (drv)
        *drv = ‘\0‘;
    for (end = path; *end && *end != ‘:‘;)
        end++;
    for (p = end; p > path && *--p != ‘\\‘ && *p != ‘/‘;)
        if (*p == ‘.‘) {
            end = p;
            break;
        }
    if (ext)
        for (s = end; (*ext = *s++);)
            ext++;
    for (p = end; p > path;)
        if (*--p == ‘\\‘ || *p == ‘/‘) {
            p++;
            break;
        }
    if (name) {
        for (s = p; s < end;)
            *name++ = *s++;
        *name = ‘\0‘;
    }
    if (dir) {
        for (s = path; s < p;)
            *dir++ = *s++;
        *dir = ‘\0‘;
    }
}


int agcProcess(int16_t *buffer, uint32_t sampleRate, size_t samplesCount, int16_t agcMode) {
    if (buffer == nullptr) return -1;
    if (samplesCount == 0) return -1;
    WebRtcAgcConfig agcConfig;
    agcConfig.compressionGaindB = 9; // default 9 dB
    agcConfig.limiterEnable = 1; // default kAgcTrue (on)
    agcConfig.targetLevelDbfs = 3; // default 3 (-3 dBOv)
    int minLevel = 0;
    int maxLevel = 255;
    size_t samples = MIN(160, sampleRate / 100);
    if (samples == 0) return -1;
    const int maxSamples = 320;
    int16_t *input = buffer;
    size_t nTotal = (samplesCount / samples);
    void *agcInst = WebRtcAgc_Create();
    if (agcInst == NULL) return -1;
    int status = WebRtcAgc_Init(agcInst, minLevel, maxLevel, agcMode, sampleRate);
    if (status != 0) {
        printf("WebRtcAgc_Init fail\n");
        WebRtcAgc_Free(agcInst);
        return -1;
    }
    status = WebRtcAgc_set_config(agcInst, agcConfig);
    if (status != 0) {
        printf("WebRtcAgc_set_config fail\n");
        WebRtcAgc_Free(agcInst);
        return -1;
    }
    size_t num_bands = 1;
    int inMicLevel, outMicLevel = -1;
    int16_t out_buffer[maxSamples];
    int16_t *out16 = out_buffer;
    uint8_t saturationWarning = 1;                 //是否有溢出發生，增益放大以後的最大值超過了65536
    int16_t echo = 0;                                 //增益放大是否考慮回聲影響
    for (int i = 0; i < nTotal; i++) {
        inMicLevel = 0;
        int nAgcRet = WebRtcAgc_Process(agcInst, (const int16_t *const *) &input, num_bands, samples,
                                        (int16_t *const *) &out16, inMicLevel, &outMicLevel, echo,
                                        &saturationWarning);

        if (nAgcRet != 0) {
            printf("failed in WebRtcAgc_Process\n");
            WebRtcAgc_Free(agcInst);
            return -1;
        }
        memcpy(input, out_buffer, samples * sizeof(int16_t));
        input += samples;
    }
    WebRtcAgc_Free(agcInst);
    return 1;
}

void auto_gain(char *in_file, char *out_file) {
    //音頻采樣率
    uint32_t sampleRate = 0;
    //總音頻采樣數
    uint64_t inSampleCount = 0;
    int16_t *inBuffer = wavRead_int16(in_file, &sampleRate, &inSampleCount);
    //如果加載成功
    if (inBuffer != nullptr) {
        //  kAgcModeAdaptiveAnalog  模擬音量調節
        //  kAgcModeAdaptiveDigital 自適應增益
        //  kAgcModeFixedDigital 固定增益
        agcProcess(inBuffer, sampleRate, inSampleCount, kAgcModeAdaptiveDigital);
        wavWrite_int16(out_file, inBuffer, sampleRate, inSampleCount);
        free(inBuffer);
    }
}

int main(int argc, char *argv[]) {
    printf("WebRTC Automatic Gain Control\n");
    printf("博客:http://cpuimage.cnblogs.com/\n");
    printf("音頻自動增益\n");
    if (argc < 2)
        return -1;
    char *in_file = argv[1];
    char drive[3];
    char dir[256];
    char fname[256];
    char ext[256];
    char out_file[1024];
    splitpath(in_file, drive, dir, fname, ext);
    sprintf(out_file, "%s%s%s_out%s", drive, dir, fname, ext);
    auto_gain(in_file, out_file);

    printf("按任意鍵退出程序 \n");
    getchar();
    return 0;
}

靜音檢測完整示例代碼：

#include <stdio.h>
#include <stdlib.h>
#include <stdint.h>
//采用https://github.com/mackron/dr_libs/blob/master/dr_wav.h 解碼
#define DR_WAV_IMPLEMENTATION

#include "dr_wav.h"
#include "vad.h"

#ifndef nullptr
#define nullptr 0
#endif

#ifndef MIN
#define  MIN(A, B)        ((A) < (B) ? (A) : (B))
#endif

#ifndef MAX
#define  MAX(A, B)        ((A) > (B) ? (A) : (B))
#endif


//讀取wav文件
int16_t *wavRead_int16(char *filename, uint32_t *sampleRate, uint64_t *totalSampleCount) {
    unsigned int channels;
    int16_t *buffer = drwav_open_and_read_file_s16(filename, &channels, sampleRate, totalSampleCount);
    if (buffer == nullptr) {
        printf("讀取wav文件失敗.");
    }
    //僅僅處理單通道音頻
    if (channels != 1) {
        drwav_free(buffer);
        buffer = nullptr;
        *sampleRate = 0;
        *totalSampleCount = 0;
    }
    return buffer;
}


int vadProcess(int16_t *buffer, uint32_t sampleRate, size_t samplesCount, int16_t vad_mode, int per_ms_frames) {
    if (buffer == nullptr) return -1;
    if (samplesCount == 0) return -1;
    // kValidRates : 8000, 16000, 32000, 48000
    // 10, 20 or 30 ms frames
    per_ms_frames = MAX(MIN(30, per_ms_frames), 10);
    size_t samples = sampleRate * per_ms_frames / 1000;
    if (samples == 0) return -1;
    int16_t *input = buffer;
    size_t nTotal = (samplesCount / samples);

    void *vadInst = WebRtcVad_Create();
    if (vadInst == NULL) return -1;
    int status = WebRtcVad_Init(vadInst);
    if (status != 0) {
        printf("WebRtcVad_Init fail\n");
        WebRtcVad_Free(vadInst);
        return -1;
    }
    status = WebRtcVad_set_mode(vadInst, vad_mode);
    if (status != 0) {
        printf("WebRtcVad_set_mode fail\n");
        WebRtcVad_Free(vadInst);
        return -1;
    }
    printf("Activity ： \n");
    for (int i = 0; i < nTotal; i++) {
        int nVadRet = WebRtcVad_Process(vadInst, sampleRate, input, samples);
        if (nVadRet == -1) {
            printf("failed in WebRtcVad_Process\n");
            WebRtcVad_Free(vadInst);
            return -1;
        } else {
            // output result
            printf(" %d \t", nVadRet);
        }
        input += samples;
    }
    printf("\n");
    WebRtcVad_Free(vadInst);
    return 1;
}

void vad(char *in_file) {
    //音頻采樣率
    uint32_t sampleRate = 0;
    //總音頻采樣數
    uint64_t inSampleCount = 0;
    int16_t *inBuffer = wavRead_int16(in_file, &sampleRate, &inSampleCount);
    //如果加載成功
    if (inBuffer != nullptr) {
        //    Aggressiveness mode (0, 1, 2, or 3)
        int16_t mode = 1;
        int per_ms = 30;
        vadProcess(inBuffer, sampleRate, inSampleCount, mode, per_ms);
        free(inBuffer);
    }
}

int main(int argc, char *argv[]) {
    printf("WebRTC Voice Activity Detector\n");
    printf("博客:http://cpuimage.cnblogs.com/\n");
    printf("靜音檢測\n");
    if (argc < 2)
        return -1;
    char *in_file = argv[1];
    vad(in_file);
    printf("按任意鍵退出程序 \n");
    getchar();
    return 0;
}

自動增益項目地址:https://github.com/cpuimage/WebRTC_AGC

具體流程為：

加載wav(拖放wav文件到可執行文件上)->增益處理->保存為_out.wav文件

靜音檢測項目地址：https://github.com/cpuimage/WebRTC_VAD

具體流程為：

加載wav(拖放wav文件到可執行文件上)->輸出靜音檢測結果

備註 :1 為非靜音，0 為靜音

該註意的地方和參數，見代碼註釋。

用cmake即可進行編譯示例代碼，詳情見CMakeLists.txt。

若有其他相關問題或者需求也可以郵件聯系俺探討。

郵箱地址是:
[email protected]

音頻自動增益與靜音檢測算法附完整C代碼

kron gmm input del led sampler 文件 += frame 前面分享過一個算法《音頻增益響度分析 ReplayGain 附完整C代碼示例》主要用於評估一定長度音頻的音量強度，而分析之後，很多類似的需求，肯定是做音頻增益，提高音量諸如此類做法。

音頻自動增益與靜音檢測算法附完整C代碼【轉】

free 例如般的 ron nbsp bsp log 梳理 .cn 轉自：https://www.cnblogs.com/cpuimage/p/8908551.html 前面分享過一個算法《音頻增益響度分析 ReplayGain 附完整C代碼示例》主要用於評估一定長

音頻降噪算法附完整C代碼

公開 lob oid 算法 rtc eve init 核心語音降噪是音頻圖像算法中的必不可少的。目的肯定是讓圖片或語音更加自然平滑，簡而言之，美化。圖像算法和音頻算法都有其共通點。圖像是偏向空間處理，例如圖片中的某個區域。圖像很多時候是以二維數據為主，矩

基於傅裏葉變換的音頻重采樣算法 (附完整c代碼)

操作 endif 傅裏葉變換思路 lis fin log 替換我們前面有提到音頻采樣算法： WebRTC 音頻采樣算法附完整C++示例代碼簡潔明了的插值音頻重采樣算法例子 (附完整C代碼) 近段時間有不少朋友給我寫過郵件，說了一些他們使用的情況和問題。坦白講，我

自動曝光修復算法附完整C代碼

ted focus 展開 ESS bubuko uimage process tiny TE 眾所周知，圖像方面的3A算法有： AF自動對焦(Automatic Focus)自動對焦即調節攝像頭焦距自動得到清晰的圖像的過程 AE自動曝光(Automatic Exposur

音頻增益響度分析 ReplayGain 附完整C代碼示例【轉】

.html ssi ifdef bar read IT 輸出標準 avi 轉自：http://www.cnblogs.com/cpuimage/p/8846951.html 人們所熟知的圖像方面的3A算法有： AF自動對焦(Automatic Focus)自動對焦即調

MTCNN人臉檢測附完整C++代碼

若有文件 nta return 版本 list warnings rtt task 人臉檢測識別一直是圖像算法領域一個主流話題。前年 SeetaFace 開源了人臉識別引擎，一度成為熱門話題。雖然後來SeetaFace 又放出來 2.0版本，但是，我說但是。。。沒

車萬翔《基於深度學習的自然語言處理》中英文PDF+塗銘《Python自然語言處理實戰核心技術與算法》PDF及代碼

提取實用進行分析表達式詞法快速入門重點 tps 自然語言處理是人工智能領域的一個重要的研究方向，是計算機科學與語言學的交叉學科。隨著互聯網的快速發展，網絡文本尤其是用戶生成的文本呈爆炸性增長，為自然語言處理帶來了巨大的應用需求。但是由於自然語言具有歧義性、動態

手機影音第九天，控制視頻全屏播放與退出全屏播放，音量調節按鈕來控制視頻音量與靜音的實現

視頻的全屏播放音量變化與靜音代碼以托管到碼雲，有興趣的小夥伴可以下載看看 https://git.oschina.net/joy_yuan/MobilePlayer一、視頻全屏播放與退出全屏系統默認的videoview類，沒有調整大小的方法，因此需要自定義一個類，繼承vide

從入門到放棄之基於個人微博公共事件檢測算法的研究與實現

高級 con class 自己權限 status com use bin 　　畢設選擇了這個題目，水平大概就是邊做邊學吧。當我註冊了微博開放平臺，下好了Java SDK搞了半天之後，才仔細一看，發現這是4年前的，或許能湊活著用吧。但這都不是重點，問題是第一步咋就GG了..

深度圖像檢測算法總結與對比（1）

超過技術由於 ear step ron for width 一次 1. R-CNN：Rich feature hierarchies for accurate object detection and semantic segmentation 技術路線：se

癌癥檢測算法頭名_ 附代碼

ml最近，近一萬名數據科學家在數據科學方面參與開發機器學習算法，可以更精確地通過CT掃描檢測癌變病變數據科學家正在使用機器學習來解決肺癌的檢測。從1月份開始，世界各地近1萬名數據科學家在Kaggle上競爭開發最有效的算法，幫助醫療專業人員更早地準確地檢測肺癌。2010年，國家肺癌篩查試驗顯示，使用低劑量計算機

Canny邊緣檢測算法原理及其VC實現詳解(一)

常用差分實現圖還需要鏈接傳感器出了關系位置轉自：http://blog.csdn.net/likezhaobin/article/details/6892176 圖象的邊緣是指圖象局部區域亮度變化顯著的部分，該區域的灰度剖面一般可以看作是一個階躍，既從

自己主動升級系統的設計與實現（續2） -- 添加斷點續傳功能（附最新源代碼）

blog down 決定 top lin dom itl com 關於一.緣起　　　　　　之前已經寫了兩篇關於自己主動升級系統OAUS的設計與實現的文章（第一篇、第二篇）。在為OAUS服務端添加自己主動檢測文件變更的功能（這樣每次部署版本號升級時，能夠節省非常多時間。

異常點/離群點檢測算法——LOF

實現 div 剔除註意 out 兩種們的 title clas http://blog.csdn.net/wangyibo0201/article/details/51705966 在數據挖掘方面，經常需要在做特征工程和模型訓練之前對數據進行清洗，剔除無效數據和

異常檢測(Anomaly detection): 異常檢測算法（應用高斯分布）

fff ati 高斯分布不同的 detect 我們 src tro images 估計P(x)的分布--密度估計我們有m個樣本，每個樣本有n個特征值，每個特征都分別服從不同的高斯分布，上圖中的公式是在假設每個特征都獨立的情況下，實際無論每個特征是否獨立，這個公式的效果

騰訊雲短信服務使用記錄與.NET Core C#代碼分享

date dom factory reat throw must ret off ont 1、即使是相同的短信簽名與短信正文模板，也需要針對“國內文本短信”與“海外文本短信”分別申請。開始不知道，以為只要申請一次，給國外手機發

漢諾塔問題(The Tower of Hanoi)的遞歸算法與非遞歸算法

for log col 遞歸 post struct () def ini 非遞歸算法：　　根據圓盤的數量確定柱子的排放順序：　　　　若n為偶數，按順時針方向依次擺放 A B C；　　　　若n為奇數，按順時針方向依次擺放 A C B。　　然後進行如下操作：　　（1

OpenCV人臉檢測(完整源代碼+思路)

exceptio pop ret 基礎 err 攝像 alt lena ann 本博文IDE為vs2013 OpenCV2.49 話不多說，先看視頻演示（20S演示）: 例如以下： https://v.youku.com

ng機器學習視頻筆記（二） ——梯度下降算法解釋以及求解θ

表示大於解釋圖片 bubuko eight 閾值自己極小值 ng機器學習視頻筆記（二） ——梯度下降算法解釋以及求解θ （轉載請附上本文鏈接——linhxx）一、解釋梯度算法梯度算法公式以及簡化的代價函數圖，如上圖所示。

音頻自動增益 與 靜音檢測 算法 附完整C代碼

相關推薦

音頻自動增益與靜音檢測算法附完整C代碼