怎樣使用字符集和編碼

pengx 2008-10-30

展開全文

當(dāng)你在編寫一個程序時，有時不得不把字符寫進(jìn)文件里去。如下面的：

　import java.io.*;

    public class Encode1 {

        public static void main(String args[])

            throws IOException {

                Writer writer = new FileWriter("out");

                writer.write("testing");

                writer.close();

當(dāng)你在solaris 系列的操作系統(tǒng)或windows 平臺運行時，文本文件out 只有7字節(jié)。這就是你預(yù)期的結(jié)果。

　但這里還是有一個重要的問題。Java　字符是16位，這就是說每個字符是2　個字節(jié)長。程序Encode1把7個字符寫進(jìn)了文件out里了。并且結(jié)果是一個7字節(jié)長的文件。你可能要問：其它字符到那兒去了。難道這里把14個字節(jié)寫進(jìn)了文件中了嗎。

　這個問題歸結(jié)為“字符編碼”了。這個問題是怎樣把在java中的16位字符映射成8位字節(jié)保存到文件中去。事實上，這里有一非常好的機制，而不是簡單的放大、縮小8位或16位，因為在全世界幾百種字符編碼在使用。這就是說：這種特殊的8位字符序列需要因不同平臺、及場所而重新組合成java字符串。

Java系統(tǒng)是通過你因不同的需要而選擇特殊編碼配置來解決這個問題的。同時它也提供一默認(rèn)的字符編碼基于你的平臺和環(huán)境。像上面的實例，java系統(tǒng)支持默認(rèn)的字符編碼進(jìn)行i/o操作。另外，你也可以指定其它的編碼（字符集）。這些字符編碼是一字符串來描述，比如：”utf-8”。也可以是java.nio.charset.Charset 類的一個實例。Charset　是一抽象類，所以事實上這個實例是Charset　類的子類。

在Encode1例子中，解決編碼問題的一種方法是把字符分解成兩個字節(jié)寫進(jìn)文件中去。竟管這個文件可能沒有字節(jié)散布在這里面。另外一種辦法是把java字符中的高位拋棄。這種辦法在上面的例子可以用，但你嘗試寫一希臘、日語字符串就不會成功了。

在這個例子中實際是用第二種方法來處理的（它的高位字節(jié)拋棄）。如果你在Encode1例子中把輸出行：writer.write("testing"); 改成：writer.write("testing\u1234");　這輸出行的總長將是8字節(jié)而不是7字節(jié)了。竟管如此，這統(tǒng)一編碼字符\u1234　還是不能以一個字節(jié)顯示出來。

在前面討論中的“拋棄“有兩種意思。如果java字符的高位是0，就像字符是以7位ASCII表示，那么“拋棄”的意思是舍去高位字節(jié)。另外一種意思是在某種的環(huán)境下你不可能用映射使用一特殊的字符。在這種可能情況下字符（2個字節(jié)）可能被一默認(rèn)的置換字節(jié)所取代。就像上面例子中的/u1234 由0x3f　取代了。

下面讓我們來看看怎樣使用字符集、在字符與字節(jié)之間映射。一個基本的問題是：那些字符集是可用呢？下面這個程序演示了一個列表：

import java.nio.charset.*;

    import java.util.*;

    public class Encode2 {

        public static void main(String args[]) {

            Map availcs = Charset.availableCharsets();

            Set keys = availcs.keySet();

            for (Iterator iter =

                keys.iterator();iter.hasNext();) {

                    System.out.println(iter.next());

它的輸出結(jié)果是如下：（沒有＊號字符）

　    ISO-8859-1*

    ISO-8859-15

    US-ASCII*

    UTF-16*

    UTF-16BE*

    UTF-16LE*

    UTF-8*

    windows-1252

＊號符在這兒用以區(qū)別那些支持所java平臺字符。

另一基本的問題是：在你自己的系統(tǒng)里的默認(rèn)的字符集是什么呢？下面這個程序顯示了這個默認(rèn)的字符集的名字：

    import java.io.*;

    import java.nio.charset.*;

    public class Encode3 {

        public static void main(String args[])

            throws IOException {

                FileWriter filewriter =

                    new FileWriter("out");

                String encname =

                    filewriter.getEncoding();

                filewriter.close();

                System.out.println(

                    "default charset is: " + encname);

/*

                Charset charset1 =

                    Charset.forName(encname);

                Charset charset2 =

                    Charset.forName("windows-1252");

                if (charset1.equals(charset2)) {

                    System.out.println(

                        "Cp1252/windows-1252 equal");

                else {

                    System.out.println(

                        "Cp1252/windows-1252 unequal");

*/

當(dāng)你運行這處程序時，你看到的結(jié)果是如下：

　default charset is: Cp1252

注意這個字符集并不在每個java實現(xiàn)所需支持的字符集一覽表中。因為默認(rèn)的字符集并不是在必需的字符中的一種。這個例子也有一些注釋性的邏輯說明演示了你可以決定所選的字符是否為默認(rèn)的字符。它表明”windows-1252” 與 “Cp1252”字符集事情上是同一個字符集。這個邏輯也顯示出因為”Cp1252”并不是所必須支持的，所以這種邏輯對你來說也沒有太大意義。

　你可能看到還有一種方式可以得到默認(rèn)字符集的名字：通過查找系統(tǒng)屬性”file.encoding”。這個方法可以工作，但這個屬性并不保證在所有的java平臺上都已經(jīng)定義了。

　在Encode3 程序中，Charset.forName 用于以一串字符名(“US-ASCII)找到字符集對象。

這里另一例子正是用這一技術(shù)的：

import java.nio.charset.*;

    public class Encode4 {

        public static void main(String args[]) {

            if (args.length != 1) {

                System.out.println(

                    "missing charset name");

                System.exit(1);

            String charsetname = args[0];

            Charset charset;

            try {

                charset = Charset.forName(charsetname);

                System.out.println(

                    "charset lookup successful");

            catch (UnsupportedCharsetException exc) {

                System.out.println(

                    "unknown charset: " + charsetname);

如果你用如下方式運行：

$ java Encode4 XYZ

它將檢查”XYZ”是否支持在本系統(tǒng)中字符集，如果支持，就獲得這個字符對象。

知道這些所有的背景后，你怎樣使用這些字符集呢。這里將重復(fù)使用第一個例子Encode1了。

import java.io.*;

    public class Encode5 {

        public static void main(String args[])

            throws IOException {

                FileOutputStream fileoutstream =

                    new FileOutputStream("out");

                Writer writer = new OutputStreamWriter(

                    fileoutstream, "UTF-8");

                writer.write("testing");

                writer.close();

Ecode1程序看起來并不簡單易用。它使用了基于平臺和環(huán)境的默認(rèn)字符集。比較這兩個例子。Encode5 程序使用了標(biāo)準(zhǔn)的字符集(UTF-8)。和很早提及的說法，在Encode1 程序中所使用的默認(rèn)字符集通過拋棄高位字符的字節(jié)。使用　UTF－8字符集可以解決這一問題。如果你把輸出行：

   Writer.write(“testing ”);

　改成：writer.write(“testing\u1234”);

它仍然可以正常運行。字符集 UTF-8 在處理7位ASCII 的方式時有其非常大的優(yōu)勢。

這里有另外一個例子。它表明你怎樣把java字符串轉(zhuǎn)化成字節(jié)向量、特定的編碼。

　import java.io.*;

    public class Encode6 {

        public static void main(String args[])

        throws UnsupportedEncodingException {

            String str = "testing";

            byte bytevec1[] = str.getBytes();

            byte bytevec2[] = str.getBytes("UTF-16");

            System.out.println("bytevec1 length = " +

                bytevec1.length);

            System.out.println("bytevec2 length = " +

                bytevec2.length);

在你的系統(tǒng)中輸出可能是這樣的：

　bytevec1 length = 7

bytevec2 length = 16

第一個轉(zhuǎn)化是運用默認(rèn)的字符集。第二個轉(zhuǎn)化是運用UTF－16　字符集。

下面還有最后一個關(guān)于字符編碼要討論的事。

你可能還會想知道這個特定的映射或編碼的運算法則是什么？　在這里有一些從DataOuputStream.writeUTF.摘錄下來的編碼。它被用來把字符向量映射成字節(jié)向量。

　for (int i = 0; i < strlen; i++) {

        c = charr[i];

        if ((c >= 0x0001) && (c <= 0x007F)) {

            bytearr[count++] = (byte) c;

        else if (c > 0x07FF) {

            bytearr[count++] =

                (byte) (0xE0 | ((c >> 12) & 0x0F));

            bytearr[count++] =

                (byte) (0x80 | ((c >>  6) & 0x3F));

            bytearr[count++] =

                (byte) (0x80 | ((c >>  0) & 0x3F));

        else {

            bytearr[count++] =

                (byte) (0xC0 | ((c >>  6) & 0x1F));

            bytearr[count++] =

                (byte) (0x80 | ((c >>  0) & 0x3F));

字符從charr 中取出。轉(zhuǎn)化成1－3個字節(jié)長。并把它寫進(jìn)bytearr中去。在0X1－0X7（7－bit ascII）范圍內(nèi)的字符被映射成它們自己。字符值為0X0和在0X80－0X7范圍內(nèi)的字符被映射成2個字節(jié)。所以其它的字符被映射成3個字節(jié)。