音視訊同步(播放)原理

阿新 • • 發佈：2019-01-17

每一幀音訊或視訊都有一個持續時間：duration：
取樣頻率是指將模擬聲音波形進行數字化時，每秒鐘抽取聲波幅度樣本的次數。
。正常人聽覺的頻率範圍大約在20Hz~20kHz之間，根據奈奎斯特取樣理論，為了保證聲音不失真，取樣頻率應該在40kHz左右。常用的音訊取樣頻率有8kHz、

11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等，如果採用更高的取樣頻率，還可以達到DVD的音質
對取樣率為44.1kHz的AAC音訊進行解碼時，一幀的解碼時間須控制在23.22毫秒內。
背景知識:
(一個AAC原始幀包含一段時間內1024個取樣及相關資料)
分析：
1) AAC
音訊幀的播放時間=一個AAC幀對應的取樣樣本的個數/取樣頻率(單位為s)
一幀 1024個 sample。取樣率 Samplerate 44100KHz，每秒44100個sample, 所以根據公式音訊幀的播放時間=一個AAC幀對應的取樣樣本的個數/取樣頻率
當前AAC一幀的播放時間是= 1024*1000000/44100= 22.32ms(單位為ms)
2) MP3
mp3 每幀均為1152個位元組，則：
frame_duration = 1152 * 1000000 / sample_rate
例如：sample_rate = 44100HZ時，計算出的時長為26.122ms，這就是經常聽到的mp3每幀播放時間固定為26ms的由來。
3)H264
視訊的播放時間跟幀率有關 frame_duration = 1000/fps
例如：fps = 25.00 ，計算出來的時常為40ms，這就是同行所說的40ms一幀視訊資料。

理論上的音視訊(播放)同步是這樣的：
由此得到了每一幀資料的持續時間，音視訊交叉儲存在容器中：一個時間軸：
時間軸：0   22.32   40     44.62    66.96    80     89.16      111.48    120       ................
音   頻：0   22.32            44.62    66.96             89.16      111.48                ................
視   頻：0              40                              80                                   120       ................
即視訊的持續時間相加和音訊的持續時間相加作比較，誰小寫入哪個。

但實際情況(播放)是不成立的

1：首先解決一個問題

為什麼不音訊播音訊的視訊播視訊的即上面的到第22.32ms播一幀音訊，到40ms播一幀視訊。

因為這個22.32ms 或40ms是算不準的或者說和音效卡播的時間是不一樣的。這裡就需要知道音效卡播一幀/或者說播放一個buf音訊需要多長時間。

2：音效卡每次播一個取樣點而不是一幀。聲音當一個取樣點丟失了都可以聽出來，視訊則不然。

3：音視訊同步方式：1----回撥方式

假設音效卡有兩塊快取都是存放要播放的聲音pcm的一直在播放"B"buf 首先確定幾點

(1)buf大小是固定的這樣播放一個buf的時間就是固定的，假設30ms;

(2)當buf“B”播放完畢即buf用完，再播放buf“A",保證音訊pcm一直都連續

(3)當一個buf播放完畢,那說明系統(音效卡)過了30ms, 這時候有可能真正的時間過了40ms(這裡不用關心),這裡則通過回撥得到一次時間30ms;

(4)再去用視訊對應音訊的30ms,這時候的時間就是準確的：

時間軸：0                   30                         60                         90                                       120       ................
音   頻：0    22.32                 44.62                 66.96     89.16                       111.48                    ................
視   頻：0                         40                                    80                                                 120       ................

(5)這裡有個問題就是視訊中 30ms 到40ms 這中間的10ms是怎麼算出來的，這個是不用關心的，因為人的眼睛10ms是看不出來的，

即當音訊的30ms一次回撥時，就可以播放第二幀視訊，如上圖

第一次回撥(30ms)---播(40ms)視訊，

第一次回撥(60ms)---播(80ms)視訊，

第一次回撥(90ms)---不播視訊，

第一次回撥(120ms)---播(120ms)視訊。

4：音視訊同步方式：1----阻塞方式

還是看上面的圖

(1)buf"B"一直在播放，傳入buf"A"的外部buf把資料給buf"A"後不立即返回，等到buf"B"播放完成再返回，

這時從傳入到經過阻塞出來就是一個buf的時間例如上面的30ms。

(2)然後buf"A"一直在播放，傳入buf"B"的外部buf把資料給buf"B"後不立即返回，等到buf"A"播放完成再返回，

這時從傳入到經過阻塞出來就是一個buf的時間例如上面的30ms。

(3)迴圈上面(1)(2),即得到了如回撥方式同樣的那個30ms時間。下面和回撥方式一樣，見回撥方式(4)(5)。

音視訊同步(播放)原理

音視訊同步(播放)原理

視訊、音訊打時間戳的方法及其音視訊同步(播放)原理

10.基於FFMPEG+SDL2播放video---音視訊同步（參考音訊時鐘）

深入理解Android音視訊同步機制（四）MediaSync的使用與原理

從零開始學習音視訊程式設計技術（八）FFMPEG Qt視訊播放器之音視訊同步

流播放器音視訊同步的一點思考

WebRTC 音視訊同步原理與實現

[SimplePlayer] 8. 音視訊同步

vlc原始碼分析（五）流媒體的音視訊同步

基於UDP實現的android區域網視訊同步播放

C#基於WindowsMediaPlayer實現音視訊檔案播放器

如何實現音視訊同步 (live555)

Android WebView載入H5音視訊自動播放、關閉Activity停止播放

Live555用做RTSPClient時，利用RTP時間戳進行音視訊同步的解決方案(必須有RTCP支援才可行)

flash swf接受外部引數視訊網站播放原理

音視訊同步-時間戳

在網頁上實現任意格式的音視訊快速播放功能的開發總結。

DTS和PTS(HLS音視訊同步)

FFmpeg 音視訊同步

如何使用mp4v2將H264+AAC裸流錄製成mp4檔案，並保持音視訊同步【原始碼】【mp4】【錄影】

音視訊同步(播放)原理

相關推薦