1. 程式人生 > >用PHP將Unicode 轉化為UTF-8

用PHP將Unicode 轉化為UTF-8

function unescape($str) {
	$str = rawurldecode($str);
	preg_match_all("/(?:%u.{4})|&#x.{4};|&#\d+;|.+/U", $str, $r);
	$ar = $r[0];
	foreach($ar as $k=>$v) {
		if(substr($v,0,2) == "%u"){
			$ar[$k] = iconv("UCS-2BE","UTF-8",pack("H4",substr($v,-4)));
		}elseif(substr($v,0,3) == "&#x"){
			$ar[$k] = iconv("UCS-2BE","UTF-8",pack("H4",substr($v,3,-1)));
		}elseif(substr($v,0,2) == "&#") {
			$ar[$k] = iconv("UCS-2BE","UTF-8",pack("n",substr($v,2,-1)));
		}
	}
	return join("", $ar);
}

今天有使用者反饋,表單系統使用者提交的資料中文會亂碼。測試發現問題出在 iconv 轉換上。

iconv('UCS-2', 'GBK', '中文')
Google 搜尋發現,原因是 Linux 伺服器上 UCS-2 編碼方式與 Winodws 不一致。
於是,我改成  iconv('UCS-2BE', 'GBK', '中文') 試試,中文正常了
  
以下是有關兩個平臺 UCS-2 編碼的潛規則:
 
1, UCS-2 不等於 UTF-16。 UTF-16 每個位元組使用 ASCII 字元範圍編碼,而 UCS-2 對每個位元組的編碼可以超出 ASCII 字元範圍。UCS-2 和 UTF-16 對每個字元至多佔兩個位元組,但是他們的編碼是不一樣的。
 
2, 對於 UCS-2, windows 下預設是 UCS-2LE。用 MultibyteToWidechar(或者A2W)生成的是 UCS-2LE 的 unicode。windows記事本可以將文字儲存為 UCS-2BE,相當於多了層轉換。
 
3, 對於 UCS-2, linux 下預設是 UCS-2BE。用iconv(指定UCS-2)來轉換生成的是 UCS-2BE 的 unicode。如果轉換windows平臺過來的 UCS-2, 需要指定 UCS-2LE。
 
4, 鑑於windows和linux等多個平臺對 UCS-2 的理解不同(UCS-2LE,UCS-2BE)。MS 主張 unicode 有個引導標誌(UCS-2LE FFFE, UCS-2BE FEFF),以表明下面的字元是 unicode 並且判別 big-endian 或 little-endian。 所以從 windows 平臺過來的資料發現有這個字首,不用慌張。
 
5, linux 的編碼輸出,比如從檔案輸出,從 printf 輸出,需要控制檯做適當的編碼匹配(如果編碼不匹配,一般和該程式編譯時的編碼有若干關係),而控制檯的轉換輸入需要檢視當前的系統編碼。比如控制檯當前的編碼是 UTF-8, 那麼 UTF-8 編碼的東西能正確顯示,GBK 就不能;同樣,當前編碼是 GBK, 就能顯示 GBK 編碼,後來的系統應該更智慧的處理好更多的轉換了。不過通過 putty 等終端還是需要設定好終端的編碼轉換以解除亂碼的煩惱。

PHP中對漢字進行UNICODE編碼和解碼的實現

//將內容進行UNICODE編碼
function unicode_encode($name){
	$name = iconv('UTF-8', 'UCS-2', $name);
	$len = strlen($name);
	$str = '';
	for ($i = 0; $i < $len - 1; $i = $i + 2){
		$c = $name[$i];
		$c2 = $name[$i + 1];
		if (ord($c) > 0){
			// 兩個位元組的文字
			$str .= '\u' . base_convert(ord($c), 10, 16) . base_convert(ord($c2), 10, 16);
		}else{
			$str .= $c2;
		}
	}
	return $str;
}
// 將UNICODE編碼後的內容進行解碼
function unicode_decode($name){
	// 轉換編碼,將Unicode編碼轉換成可以瀏覽的utf-8編碼
	$pattern = '/([\w]+)|(\\\u([\w]{4}))/i';
	preg_match_all($pattern, $name, $matches);
	if (!empty($matches)){
		$name = '';
		for ($j = 0; $j < count($matches[0]); $j++){
			$str = $matches[0][$j];
			if (strpos($str, '\\u') === 0){
				$code = base_convert(substr($str, 2, 2), 16, 10);
				$code2 = base_convert(substr($str, 4), 16, 10);
				$c = chr($code).chr($code2);
				$c = iconv('UCS-2', 'UTF-8', $c);
				$name .= $c;
			}else{
				$name .= $str;
			}
		}
	}
	return $name;
}