<本文PDF文檔下載> “這個問題比你想象中復(fù)雜” (我也學(xué)下BS的風(fēng)格,雖然這句話是我自己臨時(shí)想說的。^^) 從字符到整數(shù) char 是一種整數(shù)類型,這句話的含義是,char所能表示的字符在C/C++中都是整數(shù)類型。好,接下來,很多文章就會舉出一個典型例子,比如,'a'的數(shù)值就 是0x61。這種說法對嗎?如果你細(xì)心的讀過K&R和BS對于C和C++描述的原著,你就會馬上反駁道,0x61只是'a'的ASCII值,并沒 有任何規(guī)定C/C++的char值必須對應(yīng)ASCII。C/C++甚至沒有規(guī)定char占幾位,只是規(guī)定了sizeof(char)等于1。 當(dāng)然,目前大部分情況下,char是8位的,并且,在ASCII范圍內(nèi)的值,與ASCII對應(yīng)。 本地化策略集(locale) “將 'a'翻譯成0x61的整數(shù)值”,“將ASCII范圍內(nèi)的編碼與char的整數(shù)值對應(yīng)起來”,類似這樣的規(guī)定,是特定系統(tǒng)和特定編譯器制定的,C/C++ 中有個特定的名詞來描述這種規(guī)定的集合:本地化策略集(locale。也有翻譯成“現(xiàn)場”)。而翻譯——也就是代碼轉(zhuǎn)換(codecvt)只是這個集合中 的一個,C++中定義為策略(facet。也有翻譯為“刻面”) C/C++的編譯策略 “本地化策略集”是個很好的概念,可惜在字符和字符串這個層面上,C/C++并不使用(C++的locale通常只是影響流(stream)),C/C++使用更直接簡單的策略:硬編碼。 簡單的說,字符(串)在程序文件(可執(zhí)行文件,非源文件)中的表示,與在程序執(zhí)行中在內(nèi)存中的表示一致??紤]兩種情況: A、char c = 0x61; B、char c = 'a'; 情況A下,編譯器可以直接認(rèn)識作為整數(shù)的c,但是在情況B下,編譯器必須將'a'翻譯成整數(shù)。編譯器的策略也很簡單,就是直接讀取字符(串)在源文件中的編碼數(shù)值。比如: const char* s = "中文abc"; 這段字符串在GB2312(Windows 936),也就是我們的windows默認(rèn)中文系統(tǒng)源文件中的編碼為: 0xD6 0xD0 0xCE 0xC4 0x61 0x62 0x63 在UTF-8,也就是Linux默認(rèn)系統(tǒng)源文件中的編碼為: 0xE4 0xB8 0xAD 0xE6 0x96 0x87 0x61 0x62 0x63 一般情況下,編譯器會忠實(shí)于源文件的編碼為s賦值,例外的情況比如VC會自作聰明的把大部分其他類型編碼的字符串轉(zhuǎn)換成GB2312(除了像UTF-8 without signature這樣的幸存者)。 程序在執(zhí)行的時(shí)候,s也就保持是這樣的編碼,不會再做其他的轉(zhuǎn)換。 寬字符 wchar_t 正 如char沒有規(guī)定大小,wchar_t同樣沒有標(biāo)準(zhǔn)限定,標(biāo)準(zhǔn)只是要求一個wchar_t可以表示任何系統(tǒng)所能認(rèn)識的字符,在win32 中,wchar_t為16位;Linux中是32位。wchar_t同樣沒有規(guī)定編碼,因?yàn)閁nicode的概念我們后面才解釋,所以這里只是提一下,在 win32中,wchar_t的編碼是UCS-2BE;而Linux中是UTF-32BE(等價(jià)于UCS-4BE),不過簡單的說,在16位以內(nèi),一個字 符的這3種編碼值是一樣的。因此: const wchar_t* ws = L"中文abc"; 的編碼分別為: 0x4E2D 0x6587 0x0061 0x0062 0x0063 //win32,16位 0x00004E2D 0x00006587 0x00000061 0x00000062 0x00000063 //Linux,32位 大寫的L是告訴編譯器:這是寬字符串。所以,這時(shí)候是需要編譯器根據(jù)locale來進(jìn)行翻譯的。 比如,在Windows環(huán)境中,編譯器的翻譯策略是GB2312到UCS-2BE;Linux環(huán)境中的策略是UTF-8到UTF-32BE。 這 時(shí)候就要求源文件的編碼與編譯器的本地化策略集中代碼翻譯的策略一致,例如VC只能讀取GB2312的源代碼(這里還是例外,VC太自作聰明了 ,會將很多其他代碼在編譯時(shí)自動轉(zhuǎn)換成GB2312),而gcc只能讀取UTF-8的源代碼(這里就有個尷尬,MinGW運(yùn)行win32下,所以只有 GB2312系統(tǒng)才認(rèn);而MinGW卻用gcc編寫,所以自己只認(rèn)UTF-8,所以結(jié)果就是,MinGW的寬字符被廢掉了)。 寬字符(串)由編譯器翻譯,還是被硬編碼進(jìn)程序文件中。 |
|