程式扎記: [ Java常見問題 ] 判斷文件編碼是否為UTF-8

2010年10月15日星期五

[ Java常見問題 ] 判斷文件編碼是否為UTF-8

轉載自這裡
前言 :
這裡研究一下如何來判斷文件的編碼是否是UTF-8,關於這個問題網絡上一般採用的是判斷文件的BOM頭，但是這種方法有個缺點，就是有一些工具，比如EditPlus,比如Java程序，做出來的UTF-8編碼的文件是不會在文件內容的前面加上BOM頭的，對於這種情況，網絡上的這個辦法就會檢測失敗。

使用文件的BOM 頭判斷 :
但這裡還是列出如果是採用BOM 頭的解法可以參考入下代碼 : (參考這裡)
* 類別 FileEncodeReferee 代碼 :

view plaincopy to clipboardprint?
package test;  
  
import java.io.*;  
  
public class FileEncodeReferee {  
    private File file;  
      
    public FileEncodeReferee(File f){  
        file = f;  
    }  
      
    public FileEncodeReferee(String path) {  
        file = new File(path);  
    }  
      
    public static String getCharset(File f){  
        String charset = "Big5";  
        byte[] first3Bytes = new byte[3];  
        BufferedInputStream bis = null;  
        try {  
            // boolean checked = false;  
            bis = new BufferedInputStream(new FileInputStream(f));  
            bis.mark(0);  
            int read = bis.read(first3Bytes, 0, 3);  
            if (read == -1) {  
                return charset;  
            }  
            if (first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE) {  
                charset = "UTF-16LE";  
                // checked = true;  
            } else if (first3Bytes[0] == (byte) 0xFE  
                    && first3Bytes[1] == (byte) 0xFF) {  
                charset = "UTF-16BE";  
                // checked = true;  
            } else if (first3Bytes[0] == (byte) 0xEF  
                    && first3Bytes[1] == (byte) 0xBB  
                    && first3Bytes[2] == (byte) 0xBF) {  
                charset = "UTF-8";  
                // checked = true;  
            }  
        } catch (Exception e) {  
            e.printStackTrace();  
        } finally {  
            if (bis != null) {  
                try {  
                    bis.close();  
                } catch (Exception ex) {  
                    ex.printStackTrace();  
                }  
            }  
        }  
        return charset;  
          
    }  
      
    public String getCharset() {  
        String charset = "GBK";  
        byte[] first3Bytes = new byte[3];  
        BufferedInputStream bis = null;  
        try {  
            // boolean checked = false;  
            bis = new BufferedInputStream(new FileInputStream(file));  
            bis.mark(0);  
            int read = bis.read(first3Bytes, 0, 3);  
            if (read == -1) {  
                return charset;  
            }  
            if (first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE) {  
                charset = "UTF-16LE";  
                // checked = true;  
            } else if (first3Bytes[0] == (byte) 0xFE  
                    && first3Bytes[1] == (byte) 0xFF) {  
                charset = "UTF-16BE";  
                // checked = true;  
            } else if (first3Bytes[0] == (byte) 0xEF  
                    && first3Bytes[1] == (byte) 0xBB  
                    && first3Bytes[2] == (byte) 0xBF) {  
                charset = "UTF-8";  
                // checked = true;  
            }  
        } catch (Exception e) {  
            e.printStackTrace();  
        } finally {  
            if (bis != null) {  
                try {  
                    bis.close();  
                } catch (Exception ex) {  
                    ex.printStackTrace();  
                }  
            }  
        }  
        return charset;  
    }  
      
    public static void main(String args[]) {  
        File utf8f = new File("E:/Temp/TestData/utf8.txt");  
        File big5f = new File("E:/Temp/TestData/big5.txt");       
        System.out.println(utf8f.getAbsolutePath()+" charset="+FileEncodeReferee.getCharset(utf8f));  
        System.out.println(big5f.getAbsolutePath()+" charset="+FileEncodeReferee.getCharset(big5f));  
    }  
}  

文件內容判斷編碼 :
在經過一些測試之後，研究了一個解決方案。
考慮如下文件輸入流的代碼，

view plaincopy to clipboardprint?
FileInputStream fis = null;  
InputStreamReader isr = null;  
BufferedReader br = null;                         
File f = new File(fn);  
fis = new FileInputStream(f);  
isr = new InputStreamReader(fis, "UTF-8");  
br = new BufferedReader(isr);  

推測執行原理如下，（都是根據測試結果的猜測）

1. fis 根據文件的保存編碼來採用不同的編碼讀取文件。讀取結果為byte[]
2. isr設定的話，那麼根據isr設定的編碼來讀取文件，如果不設定，那麼編碼採用系統默認編碼ansi(window-31j,shift_jis)
3. br.readline，將isr的結果組合為String,如果isr沒有設定編碼，那麼組合String時採用的編碼為系統默認編碼ansi(window-31j,shift_jis)，如果isr設定了編碼，那麼採用isr設定好的編碼。
4. new string(byte[],"encode") 根據指定編碼生成string,如果不指定，採用系統默認編碼。系統默認編碼 ansi
5. string.getbyte("encode") 從String根據特定的編碼取得byte[]

問題出在第1步，第一步fis因為讀取文件的時候，調用的是native，也就是系統（windows系統）的東西，他用了系統的東西，系統的這個東西作了編碼判斷，但是因為他調用的是native的東西，這個判定結果沒有返回給java，導致java裡面isr,br沒有辦法跟fis協調一致，isr,br只能採用系統默認編碼 ansi(window-31j,shift_jis)，而不是採用fis的判定結果來讀取文件。
這導致了，當文件使用ansi編碼保存的時候，默認編碼跟fis判定結果一致，不會出任何問題。
當文件使用了utf-8編碼的時候，默認編碼ansi,跟fis判定結果utf-8不一致，fis採用uft-8編碼讀取出文件內容，而後，br.readline採用系統默認編碼把UTF-8編碼對應的byte[]組合成了ansi編碼對應的字符串，就產生了亂碼。
我在網絡以及java api裡面查找了一下，沒有找到判定文件保存編碼的方法。推論：因為java是調用了native的方法來實際讀取文件的，判定在native裡面完成，但是沒有把判定結果公開給我們程序員。
另有一個測試結果的推論，英文字符在任何編碼下面讀取出來的byte[]都是一樣的。因為我們才用任何編碼都不會出現英文字符亂碼的問題，所以大多數時候這個判定對我們沒有影響，這裡不討論特殊情況下因為這個原因造成的影響。
根據以上推論，考慮如下解決問題的思路，

1. 通過fis來讀取文件，這個時候讀取來的byte[]根據文件的保存格式是不同的。fis會自動判斷處理。
2. 通過br來讀取文件。
3. 1，2的讀取結果byte[]進行比較，如果相同，那麼可以認為文件的保存格式為UTF-8（雖然存在全英文ansi保存的可能，但是這種狀況認為是utf-8保存不會有影響）,如果不同則不是UTF-8,考慮我們目前狀況，那麼不是UTF-8可以認為文件保存編碼就是ANSI，如果不可以這麼認為，其他編碼類型也要做這個判斷。因為英文字符在任何編碼下面讀取出來的byte[]都是一樣的。所以這裡有一個效率問題，必須文件內容全部比較，不能只比較一部分.

如果使用第三方開源代碼common-io.jar的話，可以將以上思路簡化為如下代碼。
* 類別UTF8EncodingTest 代碼 :

view plaincopy to clipboardprint?
package test;  
  
import java.io.*;  
  
import org.apache.commons.io.FileUtils;  
  
public class UTF8EncodingTest {  
      
    public static void showBinary(String s){  
        showBinary(s.getBytes());         
    }  
    public static void showBinary(byte[] buf){  
        for(byte b:buf) {  
            System.out.printf("%x ", b);  
        }  
        System.out.println();  
    }  
      
    public static boolean isUTF8(File file) {  
        try {  
            byte[] buf = FileUtils.readFileToByteArray(file);  
            System.out.println("\t<<>>");  
            showBinary(buf);  
            String UTF8Cntent = FileUtils.readFileToString(file, "UTF-8");  
            String big5Cntent = new String(buf, "Big5");  
            String defCntent = new String(buf); //Default is UTF8  
            System.out.println("\t<<>>\n"+UTF8Cntent);  
            showBinary(UTF8Cntent);  
            System.out.println("\t<<>>\n"+big5Cntent);  
            showBinary(big5Cntent);  
            System.out.println("\t<<>>\n"+defCntent);  
            showBinary(defCntent);  
              
            if(buf.length == UTF8Cntent.getBytes().length) {  
                byte[] buf_utf8 = UTF8Cntent.getBytes();  
                for(int i=0;i
                    if(buf_utf8[i]!=buf[i]){  
                        return false;  
                    }  
                }  
                return true;  
            }  
        } catch (IOException e) {  
            e.printStackTrace();  
        }  
        return false;  
    }  
          
      
    public static void main(String args[]){  
        File utf8f = new File("E:/Temp/TestData/utf8.txt");  
        File big5f = new File("E:/Temp/TestData/big5.txt");  
        if(isUTF8(utf8f)){  
            System.out.println(utf8f.getAbsolutePath()+" is utf8 encoding!\n");  
        } else {  
            System.out.println(utf8f.getAbsolutePath()+" isn't utf8 encoding!\n");  
        }  
        if(isUTF8(big5f)){  
            System.out.println(big5f.getAbsolutePath()+" is utf8 encoding!\n");  
        } else {  
            System.out.println(big5f.getAbsolutePath()+" isn't utf8 encoding!\n");  
        }         
    }  
}  

執行結果 :

<<>>
ef bb bf e9 80 99 e6 98 af 55 54 46 38 e7 b7 a8 e7 a2 bc d a 54 68 69 73 20 69 73 20 55 54 46 38 20 65 6e 63 6f 64 69 6e 67 <原始Binary>
<<>>
這是UTF8編碼
This is UTF8 encoding
ef bb bf e9 80 99 e6 98 af 55 54 46 38 e7 b7 a8 e7 a2 bc d a 54 68 69 73 20 69 73 20 55 54 46 38 20 65 6e 63 6f 64 69 6e 67 <使用UTF8 Encoding的 Binary, 前三個byte 是BOM>
<<>>
嚜輸��狹TF8蝺函Ⅳ
This is UTF8 encoding
e5 9a 9c e8 bc b8 ef bf bd ef bf bd e7 8b b9 54 46 38 e8 9d ba e5 87 bd e2 85 a3 d a 54 68 69 73 20 69 73 20 55 54 46 38 20 65 6e 63 6f 64 69 6e 67
<<>>
這是UTF8編碼 <預設是utf8 encoding, 所以中文可以正常顯示>
This is UTF8 encoding
ef bb bf e9 80 99 e6 98 af 55 54 46 38 e7 b7 a8 e7 a2 bc d a 54 68 69 73 20 69 73 20 55 54 46 38 20 65 6e 63 6f 64 69 6e 67
E:\Temp\TestData\utf8.txt is utf8 encoding!

<<>>
b3 6f ac 4f 42 69 67 35 bd 73 bd 58 d a 54 68 69 73 20 69 73 20 42 69 67 35 20 65 6e 63 6f 64 69 6e 67
<<>>
�o�OBig5�s�X <使用utf8 encoding 取出會加入BOM, 並且中文無法正常顯示>
This is Big5 encoding
ef bf bd 6f ef bf bd 4f 42 69 67 35 ef bf bd 73 ef bf bd 58 d a 54 68 69 73 20 69 73 20 42 69 67 35 20 65 6e 63 6f 64 69 6e 67
<<>>
這是Big5編碼 <使用ANSI encoding, 中文可以正常顯示>
This is Big5 encoding
e9 80 99 e6 98 af 42 69 67 35 e7 b7 a8 e7 a2 bc d a 54 68 69 73 20 69 73 20 42 69 67 35 20 65 6e 63 6f 64 69 6e 67
<<>>
�o�OBig5�s�X <預設編碼是utf8, 所以內容為ANSI encoding 的中文無法正常顯示>
This is Big5 encoding
ef bf bd 6f ef bf bd 4f 42 69 67 35 ef bf bd 73 ef bf bd 58 d a 54 68 69 73 20 69 73 20 42 69 67 35 20 65 6e 63 6f 64 69 6e 67
E:\Temp\TestData\big5.txt isn't utf8 encoding!

這個判定有一個效率問題，在這個文章中採用的是讀取整個文件，如果我們文件太大，會比較花時間。這種情況可以考慮按行來讀取判定，某一行不一致就可以退出了。這樣可以提高一些效率。

補充說明 :
* Wiki UTF8 介紹

UTF-8（8 位元Universal Character Set／Unicode Transformation Format）是一種針對Unicode的可變長度字元編碼（定長碼），也是一種前綴碼。它可以用來表示Unicode標準中的任何字元，且其編碼中的第一個位元組仍與ASCII相容，這使得原來處理ASCII字元的軟體無須或只須做少部份修改，即可繼續使用。因此，它逐漸成為電子郵件、網頁及其他儲存或傳送文字的應用中，優先採用的編碼。

* Java JSP 讀取UTF-8檔案 (網路文章)
* [ Java常見問題 ] Java讀帶有BOM的UTF-8文件亂碼原因及解決方法

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)

程式扎記

標籤

2010年10月15日星期五

[ Java常見問題 ] 判斷文件編碼是否為UTF-8

沒有留言:

張貼留言

[Git 常見問題] error: The following untracked working tree files would be overwritten by merge

檢舉濫用情形

學習筆記

標籤

2010年10月15日 星期五

[ Java常見問題 ] 判斷文件編碼是否為UTF-8

沒有留言:

張貼留言

[Git 常見問題] error: The following untracked working tree files would be overwritten by merge

檢舉濫用情形

學習筆記

2010年10月15日星期五