1. 程式人生 > >VC ANSI字符集和UNICODE字符集的相互轉化

VC ANSI字符集和UNICODE字符集的相互轉化

ANSI 字符集中的字串使用一個位元組的空間來存放一個字元,即char*;

Unicode字符集使用兩個位元組來存放一個字元,即wchar*;

為了使程式可以使用在不同的字符集上,定義字串時使用TCHAR和PTSTR,字串賦值時使用_T("abc"),這樣程式會根據執行的系統使用的字符集,自動處理字串的儲存問題。

在WINCE上,系統使用Unicode字符集,因此TCHAR 對應的是wchar。

儘管TCHAR 的使用可以使程式跨平臺使用,但是當程式涉及到網路傳輸時,卻需要注意字符集的轉化。比如,WINDOWS XP上的字符集是ANSI,WINCE上的字符集是Unicode,但是兩者之間通過SOCKET通訊時,send()和recv()函式的引數 buf,必須是char*,於是使用Unicode字符集的一端,在傳送字串之前,要轉化成char陣列,接收到一個char陣列之後,還要轉化成wchar陣列的字串

關於ANSI字串和Unicode字串之間的轉化,可使用WINDOWS函式MultiByteToWideChar和WideCharToMultiByte。下面是這兩個函式的使用方法:

1.使用方法詳解

在本文開始之處,先簡要地說一下何為短字元和寬字元.
所謂的短字元,就是用8bit來表示的字元,典型的應用是ASCII碼.而寬字元,顧名思義,就是用16bit表示的字元,典型的有UNICODE.關於windows下的ASCII和UNICODE的更多資訊,可以參考這兩本經典著作:《windows 程式設計》,《windows 核心程式設計》.這兩本書關於這兩種字元都有比較詳細的解說.

寬字元轉換為多個短字元是一個難點,不過我們只要掌握到其中的要領,便可如魚得水.
好吧,那就讓我們開始吧.

這個是我們需要轉化的多位元組字串: 
char sText[20] = {"多位元組字串!OK!"};

我們需要知道轉化後的寬字元需要多少個數組空間.雖然在這個里程裡面,我們可以直接定義一個20*2寬字元的陣列,並且事實上將執行得非常輕鬆愉快.但假如多位元組字串更多,達到上千個乃至上萬個,我們將會發現其中浪費的記憶體將會越來越多.所以以多位元組字元的個數的兩倍作為寬字元陣列下標的宣告絕對不是一個好主意.
所幸,我們能夠確知所需要的陣列空間.
我們只需要將MultiByteToWideChar()的第四個形參設為-1,即可返回所需的短字元陣列空間的個數:
DWORD dwNum = MultiByteToWideChar (CP_ACP, 0, sText, -1, NULL, 0);

接下來,我們只需要分配響應的陣列空間:
wchar_t *pwText;
pwText = new wchar_t[dwNum];
if(!pwText)
{
   delete []pwText;
}

接著,我們就可以著手進行轉換了.在這裡以轉換成ASCII碼做為例子:
MultiByteToWideChar (CP_ACP, 0, sText, -1, pwText, dwNum);

最後,使用完畢當然要記得釋放佔用的記憶體:
delete []pwText;


同理,寬字元轉為多位元組字元的程式碼如下: 
wchar_t wText[20] = {L"寬字元轉換例項!OK!"};
DWORD dwNum = WideCharToMultiByte(CP_OEMCP,NULL,wText,-1,NULL,0,NULL,FALSE);
char *psText;
psText = new char[dwNum];
if(!psText)
{
   delete []psText;
}
WideCharToMultiByte (CP_OEMCP,NULL,wText,-1,psText,dwNum,NULL,FALSE);
delete []psText;

   如果之前我們已經分配好空間,並且由於字串較短,可以不理會浪費的空間,僅僅只是想簡單地將短字元和寬字元相互轉換,那有沒有什麼簡便的方法呢?
   WIN32 API裡沒有符合這種要求的函式,但我們可以自己進行封裝:
     
//-------------------------------------------------------------------------------------
//Description:
// This function maps a character string to a wide-character (Unicode) string
//
//Parameters:
// lpcszStr: [in] Pointer to the character string to be converted 
// lpwszStr: [out] Pointer to a buffer that receives the translated string. 
// dwSize: [in] Size of the buffer
//
//Return Values:
// TRUE: Succeed
// FALSE: Failed
// 
//Example:
// MByteToWChar(szA,szW,sizeof(szW)/sizeof(szW[0]));
//---------------------------------------------------------------------------------------
BOOL MByteToWChar(LPCSTR lpcszStr, LPWSTR lpwszStr, DWORD dwSize)
{
    // Get the required size of the buffer that receives the Unicode 
    // string. 
    DWORD dwMinSize;
    dwMinSize = MultiByteToWideChar (CP_ACP, 0, lpcszStr, -1, NULL, 0);

    if(dwSize < dwMinSize)
    {
     return FALSE;
    }

    
    // Convert headers from ASCII to Unicode.
    MultiByteToWideChar (CP_ACP, 0, lpcszStr, -1, lpwszStr, dwMinSize); 
    return TRUE;
}

//-------------------------------------------------------------------------------------
//Description:
// This function maps a wide-character string to a new character string
//
//Parameters:
// lpcwszStr: [in] Pointer to the character string to be converted 
// lpszStr: [out] Pointer to a buffer that receives the translated string. 
// dwSize: [in] Size of the buffer
//
//Return Values:
// TRUE: Succeed
// FALSE: Failed
// 
//Example:
// MByteToWChar(szW,szA,sizeof(szA)/sizeof(szA[0]));
//---------------------------------------------------------------------------------------
BOOL WCharToMByte(LPCWSTR lpcwszStr, LPSTR lpszStr, DWORD dwSize)
{
   DWORD dwMinSize;
   dwMinSize = WideCharToMultiByte(CP_OEMCP,NULL,lpcwszStr,-1,NULL,0,NULL,FALSE);
   if(dwSize < dwMinSize)
   {
    return FALSE;
   }
   WideCharToMultiByte(CP_OEMCP,NULL,lpcwszStr,-1,lpszStr,dwSize,NULL,FALSE);
   return TRUE;
}


使用方法也很簡單,示例如下:
wchar_t wText[10] = {L"函式示例"};
char sText[20]= {0};
WCharToMByte(wText,sText,sizeof(sText)/sizeof(sText[0]));
MByteToWChar(sText,wText,sizeof(wText)/sizeof(wText[0]));

這兩個函式的缺點在於無法動態分配記憶體,在轉換很長的字串時可能會浪費較多記憶體空間;優點是,在不考慮浪費空間的情況下轉換較短字串非常方便.


2.MultiByteToWideChar()函式亂碼的問題

有的朋友可能已經發現,在標準的WinCE4.2或WinCE5.0 SDK模擬器下,這個函式都無法正常工作,其轉換之後的字元全是亂碼.及時更改MultiByteToWideChar()引數也依然如此.
不過這個不是程式碼問題,其結症在於所定製的作業系統.如果我們定製的作業系統預設語言不是中文,也會出現這種情況.由於標準的SDK預設語言為英文,所以肯定會出現這個問題.而這個問題的解決,不能在簡單地更改控制面板的"區域選項"的"預設語言",而是要在系統定製的時候,選擇預設語言為"中文".
系統定製時選擇預設語言的位置於:
Platform -> Setting... -> locale -> default language ,選擇"中文",然後編譯即可.