多媒體技術基礎之---重新認識聲音

阿新 • • 發佈：2019-01-21

聲音一個最基本的常識就是“它是一種能量”，初中物理課上我們也學過聲音的三要素分別是音色、音調和響度。
音色：簡單理解，就是一種聲音的固有特徵。比如，電子琴和小提琴發出的聲音是有明顯區別的，笛子和古箏也有各自的聲音特徵。有些聲音模仿秀的選手可以通過訓練，達到模仿不同人或者不同樂器的效果。
音調：也就是我們所說的頻率，單位是赫茲Hz，頻率越高聽起來越刺耳、越尖銳，頻率越低聽起來越低沉、越渾厚。醫學研究表明，人的聽覺系統能察覺的最低頻率為20Hz，最高為20000Hz，超出這個範圍人類一般就聽不到了。其實現實生活中根本就不存在完全能聽到20Hz~20kHz這樣的人，並且隨著年齡的增長、體質的變化，人能聽到的聲音只會是這個區間的一個子集。

人對不同頻率、不同分貝的聲音的生理反應也是有差別的，正如我們中醫裡提到的“五音”(角、徵、宮、商、羽)和身體臟腑(心、肝、脾、肺、腎)以及對人心神(喜、怒、憂、思、悲)的影響是一樣的。

例如“宮”調，風格悠揚沉靜、淳厚莊重，根據五音通五臟的理論，宮調入脾，對消化系統的作用比較明顯。這就是為什麼很多古代電視或者電影裡，皇庭壽宴席的時候一般都是奏宮樂。如果對中華文化感興趣的朋友肯定注意到，我們古代繁體字的藥材的“藥”和音樂的“樂”的字根是一樣的，可見老祖宗造字時並不是瞎畫的，這說明聲音的確還是可以治病。現在精通音律的老師傅是越來越少了。感慨一句，中華文明，博大精深，後繼者何也？嗚呼。。。扯遠了，收一下。

而人一般能發出的聲音訊率也是男女有別，大致範圍如下：

低音

中音

高音

男

82 Hz～392Hz

123 Hz～493Hz

164 Hz～698Hz

女

220 Hz～1.1kHz

響度：就是聲音的大小，一般用“分貝”來表示，單位是dB，這個引數說明了聲音所攜帶的能量的大小，聲音越大，在相同傳播介質裡所能傳遞的距離就遠。
在物理世界裡，我們的聲音在傳輸過程中都是連續，像下面這個樣子：

可是如果要讓計算機來處理它，就牽扯到我們經常說的數字化了。關於聲音在數字化過程中有三個核心步驟：取樣、量化和編碼。
採樣：在模擬聲音的時間軸上週期性地取點，將時域連續的模擬訊號變成離散訊號的過程就叫做取樣。每秒鐘的取樣點越多，數字化之後的聲音就越接近原模擬聲音。每秒鐘的取樣次數就叫做取樣頻率，根據奈奎斯特定律，取樣頻率f_s和被取樣聲音的最高頻率f_max的關係如下：

fs≥2fmax

PS：有些地方把聲音的頻譜範圍也叫做聲音的頻寬，指的是聲音從最低頻率到最高頻率之間的寬度。

量化：用於表示在取樣點所獲取的聲音能量值。量化就是將空域連續的模擬訊號轉換成離散訊號的過程。量化精度越高，所能表示的聲音取樣範圍就越大，量化誤差就也越小，相應地，所佔用的儲存空間也就越大。簡而言之，就是對於取樣所得到的樣本點，我們打算用幾位二進位制數來表示它。例如，如果是8bit的量化精度，那麼我們最多能表示的取樣點就只有256個；如果是16bit，最多能表示的取樣點就可以多達65536個。

編碼：對於經過取樣量化後的資料按一定的演算法進行編碼處理。在計算機裡最接近模擬聲音的編碼方式就是PCM脈衝編碼方式。那麼對於上述量化結果，我們發現這段音訊取樣點的量化空間最多也就是11個，我們用4bit就可以完全表示它們了。所以量化精度就是4bit，可表示的樣本空間是[0~15]，因此，上述編碼序列就是{3，5，6，7，8，5，4，8，10，8，5，1，1，2，5}。

當然，真正到了量化階段時又分均勻量化和非均勻量化，量化的同時就自動編碼成PCM格式的資料了。通常意義來說，量化和編碼都是同時進行的。
ITU-T建議的G.711是最早公佈的語音編碼標準，它規定了A律13折線和u律15折線PCM編碼的兩種方案。這裡就不再繼續展開了，都是數學層面的東東，不糾結。中國和歐洲採用的A律13折線的PCM編碼方式，北美和日本採用的是u律15折線的PCM編碼方式。

在計算機裡我們就認為PCM就是數字音訊訊號的原始無損格式，其儲存方式通常是.wav檔案，即wav格式的音訊檔案就是原始的未經任何壓縮處理的數字音訊檔案，這樣的檔案大部分情況下都來自於錄音裝置。如果你使用音訊格式轉換工具將mp3轉成wav的話，那麼很不幸的是你的這個wav並不是無損格式的檔案，因為mp3格式的檔案是對原始wav檔案經過有失真壓縮後得來的，而這個過程不是可逆的，即mp3轉成的wav只有原始wav的部分資訊。但從人的聽覺系統來說，一般人是分辨不出來其中的差別，除非用專業發燒級音響裝置，再加上一雙有著專業特性的耳朵，區別還是很明顯的。

例如，我們手頭現在有款奧林巴斯的LS-14專業數碼錄音筆，我們將取樣頻率設為44100Hz，量化精度為16bit，採用雙聲道的模式進行音訊錄製，每秒鐘所產生的資料量為44100x16x2=176400 bit，那麼3分鐘將會產生的聲音資料約為30.28MB。顯然，這個結果顯然不太令人滿意，接下來就有了各種音訊壓縮演算法的出現，也就是多媒體技術術語裡所說的編碼器，其實就是壓縮演算法而已。目的只有一個：在高保真原有音質的前提下，最大限度地對數字化之後的PCM編碼檔案進行壓縮，以降低其所佔的磁碟空間。整個過程可以描述如下：

幸運的是，現在PCM編碼方式已經固化在很多音訊裝置的DSP晶片裡了，不需要我們關心。一種編碼演算法一定對應一種相應的解碼演算法才行，不然編來有毛用。我們可以看到，整個過程中PCM編碼格式充當了各種編解碼器之間轉換的中間橋樑，這也就是為什麼我們說PCM格式的聲音文是計算機裡的“模擬檔案”的原因了。不管是不同音訊壓縮格式之間的互相轉換，還是最終輸送給數模轉換器的格式都是PCM格式。

上面幾種格式裡有個flac和其他幾種格式有著本質的區別，flac是無失真壓縮格式，和它齊名還有家喻戶曉的ape格式。什麼意思？無損格式的音訊檔案是在對原始wav檔案壓縮是沒有刪減過濾它的任何資訊的情況下，完全通過演算法活生生的把wav檔案的體重給減了下來，而且flac和ape可以完整還原原始wav的所有資訊，一個毫毛都不差。ape的壓縮比高達55%。這和那些有失真壓縮的mp3、ogg、aac等是沒法相比的，因為人家是無損的，就這麼簡單。有些人喜歡聽CD，而另外一些人則喜歡聽mp3，其實他們根本就不是一個級別的，也沒有可比性的。最後，獻上天王的一首單曲以饗各位看官肯花寶貴的時間聽我在這裡唧唧歪歪的大半天，配上森海或者AKG的耳機好好享受一下生活吧(不敢保證每個人能都聽到那種感覺，畢竟人家mp3也不是蓋的)。
人生不止眼前的程式碼和BUG，還有耳朵與音樂。

2013-11-21 12:30:23

lmnos：多謝提醒，我寫錯了，MP4確實不是一種不是一種音、視訊編解碼格式 MPEG-4它是一整套標準

共同學習
http://en.wikipedia.org/wiki/MPEG-4_Part_14
http://www.differencebetween.info/difference-between-mpeg4-and-mp4

回覆 | 舉報

lmnos2013-11-21 00:13:49

wjlkoorey258：你那個播放器真心不錯，特別是介面，哥們倍兒喜歡，建議在你的github上放一份，讓哥們也來膜拜膜拜。。。
糾正你個小知識點，mp4不是一種音、視訊編解碼格式，它只是一種容器(container)格式而已，哥們後面寫個多媒體的系列博文，到時候歡迎共同來探討哈。。

多謝提醒，我寫錯了，MP4確實不是一種不是一種音、視訊編解碼格式 MPEG-4它是一整套標準

回覆 | 舉報

2013-11-20 22:22:11

lmnos：我搗鼓各種音訊解碼器時，瞭解過這些，不過你寫的真心不錯，我最喜歡聽APE格式的音樂了，同時我的高歌一曲音樂播放器也支援mp3;ape;wma;wav;flac;ogg;cda;
m4a;tta;acc+;mpc;mp4;ac3;MOD 這些格式

你那個播放器真心不錯，特別是介面，哥們倍兒喜歡，建議在你的github上放一份，讓哥們也來膜拜膜拜。。。
糾正你個小知識點，mp4不是一種音、視訊編解碼格式，它只是一種容器(container)格式而已，哥們後面寫個多媒體的系列博文，到時候歡迎共同來探討哈。。

回覆 | 舉報

2013-11-20 22:17:56

xdsnet：不是搞通訊的，是搞教育的，呵呵

老師好

回覆 | 舉報

lmnos2013-11-20 20:53:29

我搗鼓各種音訊解碼器時，瞭解過這些，不過你寫的真心不錯，我最喜歡聽APE格式的音樂了，同時我的高歌一曲音樂播放器也支援mp3;ape;wma;wav;flac;ogg;cda;
m4a;tta;acc+;mpc;mp4;ac3;MOD 這些格式

回覆 | 舉報

評論熱議

多媒體技術基礎之---重新認識聲音

多媒體技術基礎之---重新認識聲音

java8之重新認識HashMap（轉自美團技術團隊）

GB28181技術基礎之3 - RTP

上海大學數字媒體創意工程875多媒體技術基礎考研經驗分享

Gradle之重新認識Gradle(專案結構、命令列、task、構建Java專案、包裝器)

研究JS執行機制之重新認識JavaScript(1) ———— 認識Js執行上下文與執行機制

Java8系列之重新認識HashMap

Java 8系列之重新認識HashMap

Android多媒體之認識聲音、錄音與播放(PCM)

JavaScript之閉包（重新認識）

JAVA基礎——重新認識String字符串

模擬電路學習-之電容，電感重新認識

JAVA基礎之認識JAVA

web前端基礎教學技術講解之css3動畫學習

PHP正則表示式基礎之認識正則表示式

web前端技術基礎課程講解之淺談對soket的理解

web前端技術基礎課程詳解之JavaScript面向物件

web前端技術基礎課程詳解之JavaScript面向對象

web前端技術基礎課程講解之Vue.js構建方式

軟考-多媒體基礎知識（1.聲音）

多媒體技術基礎之---重新認識聲音

相關推薦