一,開篇分析
所謂緩衝區Buffer,就是 "臨時存貯區" 的意思,是暫時存放輸入輸出資料的一段記憶體。
JS語言自身只有字串資料型別,沒有二進位制資料型別,因此NodeJS提供了一個與String對等的全域性建構函式Buffer來提供對二進位制資料的操作。除了可以讀取檔案得到Buffer的例項外,還能夠直接構造,例如:
Buffer與字串類似,除了可以用.length屬性得到位元組長度外,還可以用[index]方式讀取指定位置的位元組,例如:
Buffer與字串能夠互相轉化,例如可以使用指定編碼將二進位制資料轉化為字串:
將字串轉換為指定編碼下的二進位制資料:
一點兒區別:
Buffer與字串有一個重要區別。字串是隻讀的,並且對字串的任何修改得到的都是一個新字串,原字串保持不變。
至於Buffer,更像是可以做指標操作的C語言陣列。例如,可以用[index]方式直接修改某個位置的位元組。
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
slice方法也不是返回一個新的Buffer,而更像是返回了指向原Buffer中間的某個位置的指標,如下所示。
[ 0x68, 0x65, 0x6c, 0x6c, 0x6f ]
^ ^
| |
bin bin.slice(2)
因此對slice方法返回的Buffer的修改會作用於原Buffer,例如:
var sub = bin.slice(2) ;
sub[0] = 0x65 ;
console.log(buffer) ; // <Buffer 68 65 65 6c 6f>
如果想要拷貝一份Buffer,得首先建立一個新的Buffer,並通過.copy方法把原Buffer中的資料複製過去。
這個類似於申請一塊新的記憶體,並把已有記憶體中的資料複製過去。以下是一個例子。
var dup = new Buffer(bin.length) ;
buffer.copy(dup) ;
dup[0] = 0x48 ;
console.log(buffer) ; // <Buffer 68 65 6c 6c 6f>
console.log(dup) ; // <Buffer 48 65 65 6c 6f>
總之,Buffer將JS的資料處理能力從字串擴充套件到了任意二進位制資料。
以上簡單讓大家瞭解一下什麼是Buffer,下面具體說說如何使用和具體使用場景。
二,聊聊Buffer
JavaScript對字串處理十分友好,無論是寬位元組還是單位元組字串,都被認為是一個字串。Node中需要處理網路協議、操作資料庫、處理圖片、檔案上傳等,還需要處理大量二進位制資料,自帶的字串遠不能滿足這些要求,因此Buffer應運而生。
Buffer結構
Buffer是一個典型的Javascript和C++結合的模組,效能相關部分用C++實現,非效能相關部分用javascript實現。
Node在程序啟動時Buffer就已經加裝進入記憶體,並將其放入全域性物件,因此無需require
Buffer物件:類似於陣列,其元素是16進位制的兩位數。
Buffer記憶體分配
Buffer物件的記憶體分配不是在V8的堆記憶體中,在Node的C++層面實現記憶體的申請。
為了高效的使用申請來得記憶體,Node中採用slab分配機制,slab是一種動態記憶體管理機制,應用各種*nix作業系統。slab有三種狀態:
(1) full:完全分配狀態
(2) partial:部分分配狀態
(3) empty:沒有被分配狀態
Buffer的轉換
Buffer物件可以和字串相互轉換,支援的編碼型別如下:
ASCII、UTF-8、UTF-16LE/UCS-2、Base64、Binary、Hex
字串轉Buffer
new Buffer(str, [encoding]),預設UTF-8
buf.write(string, [offset], [length], [encoding])
Buffer轉字串
buf.toString([encoding], [start], [end])
Buffer不支援的編碼型別
通過Buffer.isEncoding(encoding)判斷是否支援
iconv-lite:純JavaScript實現,更輕量,效能更好無需C++到javascript的轉換
iconv:呼叫C++的libiconv庫完成
Buffer的拼接
注意 "res.on('data', function(chunk) {})",其中的引數chunk是Buffer物件,直接用+拼接會自動轉換為字串,對於寬位元組字元可能會導致亂碼產生,
解決方法:
(1) 通過可讀流中的setEncoding()方法,該方法可以讓data事件傳遞不再是Buffer物件,而是編碼後的字串,其內部使用了StringEncoder模組。
(2) 將Buffer物件暫存到陣列中,最後在組裝成一個大Buffer讓後編碼轉換為字串輸出。
Buffer在檔案I/O和網路I/O中廣泛應用,其效能舉足輕重,比普通字串效能要高出很多。
Buffer的使用除了與字串的轉換有效能損耗外,在檔案讀取時候,有一個highWaterMark設定對效能影響至關重要。
a,highWaterMark設定對Buffer記憶體的分配和使用有一定影響。
b, highWaterMark設定過小,可能導致系統呼叫次數過多。
什麼時候該用buffer,什麼時候不該用 ------ 純粹的javascript支援unicode碼而對二進位制不是很支援,當解決TCP流或者檔案流的時候,處理流是有必要的,我們儲存非utf-8字串,2進位制等等其他格式的時候,我們就必須得使用 ”Buffer“ 。
三,例項引入
console.time("buffer concat test !");
var list = [] ;
var len = 100000 * buf.length ;
for(var i=0;i<100000;i++){
list.push(buf) ;
len += buf.length ;
}
var s1 = Buffer.concat(list, len).toString() ;
console.timeEnd("buffer concat test !") ;
console.time("string concat test !") ;
var list = [] ;
for (var i = 100000; i >= 0; i--) {
list.push(str) ;
}
var s2 = list.join("") ;
console.timeEnd("string concat test !") ;
以下是執行結果:
讀取速度肯定string更快,buffer還需要toString()的操作。 所以我們在儲存字串的時候,該用string還是要用string,就算大字串拼接string的速度也不會比buffer慢。
那什麼時候我們又需要用buffer呢?沒辦法的時候,當我們儲存非utf-8字串,2進位制等等其他格式的時候,我們就必須得使用了。
四,總結一下
(1),JavaScript適合處理Unicode編碼資料,但對二進位制資料的處理並不友好。
(2),所以處理TCP流或檔案系統時,對八位位元組流的處理很有必要。
(3),Node有幾個用於處理,建立和消耗八位位元組流的方法。
(4),原始資料存放在一個Buffer例項中,一個Buffer類似一個整數陣列,但是它的記憶體,分配在V8堆疊外。一個Buffer的大小是不能更改的。
(5),處理的編碼型別有:ascii,utf8,utf16le,ucs2(utf16le的別名),base64,binary,hex。
(6),Buffer為全域性元素,直接new Buffer()就得到一個Buffer例項。