1. 程式人生 > >PHP匯出CSV檔案出現亂碼的解決方法

PHP匯出CSV檔案出現亂碼的解決方法


這個問題困擾我兩天,主要是因為在網上看了一個有很大問題的解決辦法:微軟的Excel開啟的csv檔案不支援uft-8編碼,而是支援UTF-16LE編碼,所以我們需要輸出BOM頭,然後將UTF-8轉換成UTF-16LE

//輸出BOM
 echo(chr(255).chr(254));
 echo(mb_convert_encoding($content,"UTF-16LE","UTF-8"));

這樣直接轉換為UTF-16LE編碼,本身確實可以將匯出的CSV檔案中的亂碼變成日語、韓語。但是,卻不能正確的使用分隔符,所有的欄位全部都擠在一起了。於是我花了整整一天的時間研究怎樣讓分隔符生效。很不幸,試了很多辦法還是沒用。

其實,解決辦法沒這麼複雜。

要解決PHP生成CSV檔案的亂碼問題,只需要在檔案的開始輸出BOM頭,告訴windows CSV檔案的編碼方式,從而讓Excel開啟CSV時採用正確的編碼。

    什麼是BOM?

    在UCS 編碼中有一個叫做”ZERO WIDTH NO-BREAK SPACE”的字元,它的編碼是FEFF。而FFFE在UCS中是不存在的字元,
    所以不應該出現在實際傳輸中。UCS規範建議我們在傳輸位元組流前,先傳輸字元”ZERO WIDTH NO-BREAK SPACE”。這樣如
    果接收者收到FEFF,就表明這個位元組流是Big-Endian的;如果收到FFFE,就表明這個位元組流是Little-Endian的。因此
    字元”ZERO WIDTH NO-BREAK SPACE”又被稱作BOM。
    UTF-8不需要BOM來表明位元組順序,但可以用BOM來表明編碼方式。字元”ZERO WIDTH NO-BREAK SPACE”的UTF-8編碼是
    EF BB BF。所以如果接收者收到以EF BB BF開頭的位元組流,就知道這是UTF-8編碼了。
    Windows就是使用BOM來標記文字檔案的編碼方式的。

在所有內容輸出之前

print(chr(0xEF).chr(0xBB).chr(0xBF));

註釋:

幾個UTF編碼的BOM頭

define ('UTF32_BIG_ENDIAN_BOM'   ,   chr(0x00) . chr(0x00) . chr(0xFE) . chr(0xFF));
 define ('UTF32_LITTLE_ENDIAN_BOM',   chr(0xFF) . chr(0xFE) . chr(0x00) . chr(0x00));
 define ('UTF16_BIG_ENDIAN_BOM' ,   chr(0xFE) . chr(0xFF));
 define ('UTF16_LITTLE_ENDIAN_BOM',   chr(0xFF) . chr(0xFE));
 define ('UTF8_BOM'   ,   chr(0xEF) . chr(0xBB) . chr(0xBF));

完整的程式碼

 header('Expires: 0');
 header('Cache-control: private');
 header('Cache-Control: must-revalidate, post-check=0, pre-check=0');
 header('Content-Description: File Transfer');
 header('Content-Encoding: UTF-8');
 header('Content-type: text/csv; charset=UTF-8');
 header('Content-Disposition: attachment; filename=Customers_Export.csv');

echo "\xEF\xBB\xBF"; // UTF-8 BOM
 /*
 * OR print(chr(0xEF).chr(0xBB).chr(0xBF));
 */